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£j (54) Titre : GENES IMPLIQUES DANS LES MALADIES INFL A M M ATOIRES DE L'INTESTIN ET LEUR UTILISATION 
00 

JN (57) Abstract: The invention concerns genes involved in inflammatory and/or immune diseases and some cancers, in particular 
1^ intestinal cryptogenic inflammatory diseases, and proteins coded by said genes. The invention also concerns methods for diagnosing 
g inflammatory diseases. 

Q (57) Abr6ge" : La prcscntc invention concerne des genes impliqucs dans les maladies inflammatoires et/ou immuncs et certains 
cancers, en particulier les maladies inflammatoires cryptog£n6tiques de l'intestin, ainsi que les prolines codees par ces genes. Des 
^ m&hodcs de diagnostics de maladies inflammatoires sont cgalcment des objets de la presente invention^ . ^ 
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GENES lMi'IIQlJuS DANS LeS MAjlADIES INFLAMMATOIRES 
DE L'INTESTIN ET LEIIR UTILISATION 

La presente invention concerne des genes impliques dans les 
5 maladies inflammatoires et/ou immunes et certains cancers, en particulier les 
maladies inflammatoires cryptogenetiques de l'intestin, ainsi que les proteines 
codees par ces genes. Des methodes de diagnostics de maladies inflammatoires sont 
egalement des objets de la presente invention. 

Les maladies inflammatoires cryptogenetiques de l'intestin (MICI) sont des 

10 maladies caracterisees par une inflammation du tube digestif dont la cause est 
inconnue. Selon la localisation et les caracteristiques de l'inflammation on distingue 
deux entites nosologiques differentes: la rectocolite hemorragique (RCH) et la 
maladie de Crohn (MC). La RCH a ete decrite par S Wilkes en 1865 tandis que Ie 
premier cas d'ileite regionale a ete rapportee par Crohn en 1932. En realite, il est 

1 5 possible que ces deux maladies soient beaucoup plus anciennes. 

Les MICI sont des maladies chroniques qui evoluent tout au long de la vie et 
qui touchent environ 1 a 2 personnes sur 1000 habitants dans les pays occidentaux, 
ce qui represente entre 60.000 et 100.000 malades en France. II s'agit de maladies 
apparaissant chez le sujet jeune (le pic d'incidence est dans la troisieme decennie), 

20 evoluant par poussees entrecoupees de remissions, avec des complications 
frequentes telles que la denutrition, le retard de croissance chez l'enfant, la 
demineralisation osseuse et a terme la degenerescence maligne vers le cancer du 
colon. II n'existe pas de traitement specifique. Les therapeutiques habituelles font 
appel aux anti-inflammatoires, aux immunosuppresseurs et a la chirurgie. Tous ces 

25 moyens therapeutiques sont eux-memes source d'une morbidite iatrogene 
importante. Pour toutes ces raisons les MICI apparaissent comme un important 
probleme de sante publique. 

L'etiologie des MICI est actuellement inconnue. Des facteurs 
d'environnement sont impliques dans la survenue de la maladie comme en 

30 temoignent l'augmentation seculaire d'incidence de la maladie et la concordance 
incomplete chez les jumeaux monozygotes. Les seuls facteurs de risque 
environnementaux actuellement reconnus sont 1) le tabac dont le role est nefaste 
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dans ia MC et benefique dans ia RCH et 2) I'appendicectornie qui a un role 
protecteur pour la RCH. 

Une predisposition genetique est depuis longtemps suspectee devant 
l'existence d'agregations ethniques et familiales de ces maladies. En effet, les MICI 

5 sont plus frequentes dans la population caucasienne et en particulier la population 
juive d'Europe centrale. Les formes familiales represented de 6 a 20% des cas de 
MICI. Elles sont particulierement frequentes lorsque le debut de la maladie est 
precoce. Cependant, ce sont les etudes chez les jumeaux qui ont permis de 
confirmer le caractere genetique de ces maladies. En effet, le taux de concordance 

10 entre jumeaux pour ces maladies est plus important chez les jumeaux monozygotes 
que chez les jumeaux dizygotes plaidant fortement pour une composante hereditaire 
aux MICI, en particulier a la MC. Selon toute vraisemblance, les MICI sont des 
maladies genetiques complexes faisant intervenir plusieurs genes differents, en 
interaction entre eux et avec des facteurs d'environnement. Les MICI peuvent done 

1 5 etre classees dans le cadre des maladies multifactorielles. 

Deux grandes strategies ont ete developpees afin de mettre en evidence les 
genes de susceptibilite aux MICI. La premiere repose sur I'analyse de genes 
candidats pour des raisons physiopathologiques. Ainsi de nombreux genes ont ete 
proposes comme potentiellement importants pour les MICI. II s'agit souvent de 

20 genes ayant un role dans l'inflammation et la reponse immune. On peut citer les 
genes HLA, TAP, TNF, MICA, le recepteur T du lymphocyte, ICAMI, 
Tinterleukine 1, CCR5, etc. D'autres genes participent a des fonctions diverses tels 
que GAI2, la motiline, MRAMP, HMLH1, etc. En realite, aucun des differents 
genes candidats etudies n'a actuellement fait la preuve definitive de son role dans la 

25 survenue des MICI. 

Le recent developpement de cartes du genome humain utilisant des 
rnarqueurs genetiques hautement polymorphes a permis aux geneticiens de 
developper une approche non ciblee sur l'ensemble du genome. Cette demarche, 
appelee aussi genetique inverse ou clonage posit ionnel, ne fait aucune hypothese sur 

30 les genes impliques dans la maladie et tente de decouvrir ceux-ci a travers un 
criblage systematique du genome. La methode la plus utilisee pour les maladies 
genetiques complexes repose sur T&ude de l'identite par la descendance des 
malades d'une meme famille. Cette valeur est calculee pour un grand nombre (300- 
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400) de marqueurs de polymorphisme repartis regulierement (tous les lOcM) sur le 
genome. En cas d'exces d'identite entre malades, le(s) marqueur(s) teste(s) 
indique(nt) une region supposee contenir un gene de susceptibilite a la maladie. 
Dans le cas des maladies genetiques complexes, le modele sous-jacent a la 
5 predisposition genetique (nombre de genes et importance respective de chacun 
d'entre eux) etant inconnu, les methodes statistiques a utiliser devront etre adaptees. 

La presente invention concerne la mise en evidence de la sequence 
nucleique de genes impliques dans les MCI, et d'autres maladies inflammatoires, 
ainsi que ^utilisation de ces sequences nucleiques. 

10 Dans le cadre de la presente invention, des travaux preliminaires des 

inventeurs ont deja permis de localiser un gene de susceptibilite a la MC. En effet, 
les inventeurs (Hugot et al., 1996) ont montre qu'un gene de susceptibilite a la MC 
etait localise dans la region pericentromerique du chromosome 16 (figure 1). II 
s'agissait du premier gene de susceptibilite a une maladie genetique complexe 

15 localise par clonage positionnel et satisfaisant aux criteres stricts proposes dans la 
litterature (Lander et Kruglyak, 1995). Ce gene a ete nomme DBD1 (pour 
Inflammatory Bowel Disease 1). Depuis, d'autres localisations ont ete proposees par 
d'autres auteurs en particulier sur les chromosomes 12, 1, 3, 6 et 7 (Satsangi et al., 
1996 ; Cho et al., 1998). Bien que localises, aucun de ces genes de susceptibilite 

20 aux MICI n'a actuellement pu Stre identifie. 

Certains auteurs n'ont pu repliquer cette localisation (Rioux et al., 1998). 
Ceci n'est cependant pas surprenant dans le cas de maladies genetiques complexes 
ou une heterogeneite genetique est probable. 

II est interessant de noter que selon la meme approche de clonage 

25 positionnel, des localisations ont aussi ete proposees sur le chromosome 16 pour 
plusieurs maladies immunes et inflammatoires telles que la spondylarthrite 
ankylosante, le syndrome de Blau, le psoriasis, etc. (Becker et al., 1998 ; Tromp et 
al., 1996). Toutes ces maladies pourraient alors partager un meme gene (ou un 
meme groupe de genes) localise sur le chromosome 16. 

30 Le maximum des tests de liaison genetique est situe pratiquement toujours a 

la meme position, au niveau de D16S409 ou D16S411 separes seulement de 2cM. 
Ce resultat est en opposition avec la taille importante (habituellement superieure a 
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20cM) de Fintervalle de confiance attribuable a !a localisation genetique scion une 
demarche utilisant des analyses de liaison non parametriques. 

La comparaison des tests statistiques utilises dans les travaux des inventeurs 
montre que les tests bases sur l'identite par descendance complete (Tz2) sont 
5 meilleurs que les tests bas£ sur la moyenne de l'identite par descendance (Tz) (fig. 
1). Une telle difference peut etre expliquee par un effet recessif de IBD1. 

Plusieurs genes connus dans la region pericentromerique du chromosome 
16, tels que le recepteur a l'interleukine 4, CD19, CD43, CD11, apparaissent comme 
de bons candidats potentiels pour la MC. Des resultats preliminaires ne plaident 
1 0 cependant pas en faveur de l'implication de ces genes dans la MC. 

En particulier, la presente invention fournit la sequence non seulement du 
gene IBD1, mais egalement la sequence partielle d'un autre gene, appele IBDlprox 
en raison de sa localisation a proximite d'iBD, et mis en evidence comme rapporte 
dans les exemples ci-apres. Ces genes dont la sequence d'ADNc correspond 
1 5 respectivement a SEQ ID N° 1 et SEQ ID N° 4 sont done potentiellement impliques 
dans de nombreuses maladies inflammatoires et/ou immunes ainsi que dans des 
cancers. 

La sequence peptidique exprimee par les genes IBD1 et IBDlprox est 
representee par SEQ ID N° 2 et SEQ ID N° 5 respectivement; la sequence 
20 genomique de ces genes est representee par SEQ ID N° 3 et SEQ ID N° 6 
respectivement. 

Ainsi, la presente invention a pour objet un acide nucleique purifie ou isole, 
caracterise en ce qu'il comprend une sequence nucleique choisie dans le groupe de 
sequences suivantes : 
25 a) SEQ ID N° 1, SEQ ID N° 3, SEQ ID N° 4 et SEQ ID N° 6 ; 

b) la sequence d'un fragment d'au moins 15 nucleotides consecutifs 
d'une sequence choisie parmi SEQ ID N° 1, SEQ ID N° 3, SEQ 
EDN°4ou SEQ IDN°6; 

c) une sequence nucleique presentant un pourcentage d'identite 
30 d'au moins 80 %, apres alignement optimal avec une sequence 

d6finie en a) ou b) ; 

d) une sequence nucleique s'hybridant dans des conditions de forte 
stringence avec une sequence nucleique definie en a) ou b) ; 
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e) la sequence complementaire ou !a sequence de 1'ARN 
correspondant a une sequence telle que definie en a), b), c) ou d). 
La sequence d'acides nucleiques selon V invention definie en c) presente un 
pourcentage d'identite d'au moins 80 % apres alignement optimal avec une 
5 sequence telle que definie en a) ou b) ci-dessus, de preference 90 %, de fa$on la 
plus preferee 98 %. 

Par acide nucleique, sequence nucleique ou d'acide nucleique, 
polynucleotide, oligonucleotide, sequence de polynucleotide, sequence 
nucleotidique, termes qui seront employes indifferemment dans la presente 
10 description, on entend designer un enchainement precis de nucleotides, modifies ou 
non, permettant de definir un fragment ou une region d'un acide nucleique, 
comportant ou non des nucleotides non naturels, et pouvant correspondre aussi bien 
a un ADN double brin, un ADN simple brin que des produits de transcription 
desdits ADNs. Ainsi, les sequences nucleiques selon Tinvention englobent 
1 5 egalement les PNA (Peptid Nucleic Acid), ou analogues. 

II doit etre compris que la presente invention ne concerne pas les sequences 
nucleotidiques dans leur environnement chromosomique naturel, c'est-a-dire a Tetat 
naturel. II s'agit de sequences qui ont ete isolees et/ou purifiees, c'est-a-dire qu'elles 
ont ete prelevees directement ou indirectement, par exemple par copie, leur 
20 environnement ayant ete au moins partiellement modifie. On entend ainsi egalement 
designer les acides nucleiques obtenus par synthese chimique. 

Par « pourcentage d'identite » entre deux sequences d'acides nucleiques ou 
d'acides amines au sens de la presente invention, on entend designer un 
pourcentage de nucleotides ou de residus d'acides amines identiques entre les deux 
25 sequences a comparer, obtenu apres le meilleur alignement, ce pourcentage etant 
purement statistique et les differences entre les deux sequences etant reparties au 
hasard et sur toute leur longueur. On entend designer par "meilleur alignement" ou 
"alignement optimal", Talignement pour lequel le pourcentage d'identite determine 
comme ci-apres est le plus eleve. Les comparaisons de sequences entre deux 
30 sequences d'acides nucleiques ou d'acides amines sont traditionnellement realisees 
en comparant ces sequences apres les avoir alignees de maniere optimale, ladite 
comparaison etant realisee par segment ou par « fenetre de comparaison » pour 
identifier et comparer les regions locales de similarite de sequence. L'alignement 
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optimal des sequences pour la comparaison peut etre realise, outre manue! lenient, 
au moyen de Palgoriihme d'homologie locale de Smith et Waterman (1981), au 
moyen de Palgorithme d'homologie locale de Neddleman et Wunsch (1970), au 
moyen de la methode de recherche de similarity de Pearson et Lipman (1988), au 
5 moyen de logiciels informatiques utilisant ces algorithmes (GAP, BESTFIT, 
BLAST P, BLAST N, FASTA et TFASTA dans le Wisconsin Genetics Software 
Package, Genetics Computer Group, 575 Science Dr., Madison, WI). Afin d'obtenir 
Palignement optimal, on utilise de preference le programme BLAST, avec la 
matrice BLOSUM 62. On peut egalement utiliser les matrices PAM ou PAM250. 

10 Le pourcentage d'identite entre deux sequences d'acides nucleiques ou 

d'acides amines est determine en comparant ces deux sequences alignees de 
maniere optimale, la sequence d'acides nucleiques ou d'acides amines a comparer 
pouvant comprendre des additions ou des deletions par rapport a la sequence de 
reference pour un alignement optimal entre ces deux sequences. Le pourcentage 

15 d'identite est calcule* en determinant ]e nombre de positions identiques pour 
lesquelles le nucleotide ou le residu d'acide amine est identique entre les deux 
sequences, en divisant ce nombre de positions identiques par le nombre total de 
positions comparees et en multipliant le resultat obtenu par 100 pour obtenir le 
pourcentage d'identite entre ces deux sequences. 

20 Par sequences nucleiques presentant un pourcentage d'identite d'au 

moins 80 %, de preference 90 %, de fa^on plus preferee 98 %, apres alignement 
optimal avec une sequence de reference, on entend designer les sequences 
nucleiques presentant, par rapport a la sequence nucleique de reference, certaines 
modifications comme en particulier une deletion, une troncation, un allongement, 

25 une fusion chimerique, et/ou une substitution, notamment ponctuelle, et dont la 
sequence nucleique presente au moins 80 %, de preference 90 %, de facon plus 
preferee 98 %, d'identite apres alignement optimal avec la sequence nucleique de 
reference. II s'agit de preference de sequences dont les sequences complementaires 
sont susceptibles de s'hybrider specifiquement avec les sequences SEQ ID N° 1 ou 

30 SEQ ID N° 4 de Tinvention. De preference, les conditions d'hybridation specifiques 
ou de forte stringence seront telles qu'elles assurent au moins 80 %, de preference 
90 %, de fa?on plus preferee 98 % d'identite apres alignement optimal entre Pune 
des deux sequences et la sequence complementaire de Pautre. 
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Une hybridation dans des conditions de forte stringence signifie que les 
conditions de temperature et de force ionique sont choisies de telle maniere qu'elles 
permettent le maintien de V hybridation entre deux fragments d'ADN 
complementaires. A titre illustratif, des conditions de forte stringence de l'etape 
5 d'hybridation aux fins de defmir les fragments polynucleotidiques decrits ci-dessus, 
sont avantageusement les suivantes. 

L'hybridation ADN-ADN ou ADN-ARN est realisee en deux etapes : (1) 
prehybridation a 42°C pendant 3 heures en tampon phosphate (20 mM, pH 7,5) 
contenant 5 x SSC (1 x SSC correspond a une solution 0,15 M NaCl + 0,015 M 

10 citrate de sodium), 50 % de formamide, 7 % de sodium dodecyl sulfate (SDS), 10 x 
Denhardt's, 5 % de dextran sulfate et 1 % d'ADN de sperme de saumon ; (2) 
hybridation proprement dite pendant 20 heures a une temperature dependant de la 
taille de la sonde (i.e. : 42°C, pour une sonde de taille > 100 nucleotides) suivie de 2 
lavages de 20 minutes a 20°C en 2 x SSC + 2 % SDS, 1 lavage de 20 minutes a 

15 20°C en 0,1 x SSC + 0,1 % SDS. Le dernier lavage est pratique en 0,1 x SSC + 0,1 
% SDS pendant 30 minutes a 60°C pour une sonde de taille > 100 nucleotides. Les 
conditions d' hybridation de forte stringence decrites ci-dessus pour un 
polynucleotide de taille definie, peuvent etre adaptees par Phomme du metier pour 
des oligonucleotides de taille plus grande ou plus petite, selon I'enseignement de 

20 Sambrook et al., 1989. 

Parmi les sequences nucleiques presentant un pourcentage d^dentite d'au 
moins 80 %, de preference 90 %, de fa9on plus prefenSe 98 %, apres alignement 
optimal avec la sequence selon l'invention, on prefere egalement les sequences 
nucleiques variantes de SEQ ID N° 1, ou de SEQ ID N° 4, ou de leurs fragments, 

25 c'est-a-dire Tensemble des sequences nucleiques correspondant a des variants 
alleliques, c'est-a-dire des variations individuelles des sequences SEQ ID N° 1 ou 
SEQ ID N° 4. Ces sequences mutees naturelles correspondent a des 
polymorphismes presents chez les mammiferes, en particulier chez Tetre humain et, 
notamment, a des polymorphismes pouvant conduire a la survenue d'une 

30 pathologic De preference, la presente invention concerne les sequences nucleiques 
variantes dans lesquelles les mutations conduisent a une modification de la 
sequence d'acides amines du polypeptide, ou de ses fragments, codes par la 
sequence normale de SEQ ED N° 1 ou SEQ ID N° 4. 
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On entend egalement designer par sequence nucieique variante tout ARN ou 
ADNc resultant d'une mutation et/ou variation d'un site d'epissage de la sequence 
nucieique genomique dont P ADNc a pour sequence SEQ ID N° 1 ou SEQ ID N° 4. 

L'invention concerne de preference un acide nucieique purifie ou isole selon 
5 la presente invention, caracterise en ce qu'il comprend ou est constitue de Tune des 
sequences SEQ ID N° 1 ou SEQ ID N° 4, de leurs sequences complementaires ou 
des sequences de TARN correspondant a SEQ ID N° 1 ou SEQ ID N° 4. 

Les amorces ou sondes, caracterisees en ce qu'elles comprennent une 
sequence d'un acide nucieique selon l'invention, font egalement partie de 
10 l'invention, 

Ainsi, la presente invention concerne egalement les amorces ou les sondes 
selon l'invention qui peuvent permettre en particulier de mettre en evidence ou de 
discriminer les sequences nucleiques variantes, ou d'identifier la sequence 
genomique des genes dont PADNc est represents par SEQ ID N° 1 ou SEQ ID N° 
15 4, en utilisant notamment une methode d'amplification telle que la methode PCR, 
ou une methode apparentee. 

L'invention concerne egalement Putilisation d'une sequence d'acide 
nucieique selon l'invention comme sonde ou amorce, pour la detection, 
P identification, le dosage ou Pamplification de sequence d'acide nucieique. 
20 Selon l'invention, les polynucleotides pouvant etre utilises comme sonde ou 

comme amorce dans des precedes de detection, d'identification, de dosage ou 
d'amplification de sequence nucieique, presentent une taille minimale de 15 bases, 
de preference de 20 bases, ou mieux de 25 a 30 bases. 

Les sondes et amorces selon l'invention peuvent etre marquees directement 
25 ou indirectement par un compose radioactif ou non radioactif par des methodes bien 
connues de Phomme du metier, afin d'obtenir un signal detectable et/ou 
quantifiable. 

Les sequences de polynucleotides selon l'invention non marquees peuvent 
etre utilisees directement comme sonde ou amorce. 
30 Les sequences sont generalement marquees pour obtenir des sequences 

utilisables pour de nombreuses applications. Le marquage des amorces ou des 
sondes selon l'invention est realise par des elements radioactifs ou par des 
molecules non radioactives. 
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ou le 125 I Les entites non radioactives sont selectionnees parmi les ligands tels la 
biotine, 1'avidine, la streptavidine, la dioxygenine, les haptenes, les colorants, les 
agents luminescents tels que les agents radioluminescents, chemoluminescents, 
5 bioluminescents, fluorescents, phosphorescents. 

Les polynucleotides selon P invention peuvent ainsi etre utilises comme 
amorce et/ou sonde dans des procedes mettant en oeuvre notamment la technique de 
PCR (amplification en chaine par polymerase) (Rolfs et al, 1991). Cette technique 
necessite le choix de paires d'amorces oligonucleotidiques encadrant le fragment 
1 0 qui doit etre amplifie. On peut, par exemple, se referer a la technique decrite dans le 
brevet americain U.S. N° 4,683,202. Les fragments amplifies peuvent etre 
identifies, par exemple apres une electrophorese en gel d'agarose ou de 
polyacrylamide, ou apres une technique chromatographique comme la filtration sur 
gel ou la chromatographic echangeuse d'ions, puis sequences. La specificite de 
15 P amplification peut etre controlee en utilisant comme amorces les sequences 
nucleotidiques de polynucleotides de Pinvention et comme matrices, des plasmides 
contenant ces sequences ou encore les produits d'amplification derives. Les 
fragments nucleotidiques amplifies peuvent etre utilises comme reactifs dans des 
reactions d 'hybridation afin de mettre en evidence la presence, dans un echantillon 
20 biologique, d'un acide nucleique cible de sequence complementaire a celle desdits 
fragments nucleotidiques amplifies. 

L'invention vise egalement les acides nucleiques susceptibles d'etre obtenus 
par amplification a Paide d'amorces selon Pinvention. 

D'autres techniques d'amplification de Pacide nucleique cible peuvent etre 
25 avantageusement employees comme alternative a la PCR (PCR-like) a Paide de 
couple d'amorces de sequences nucleotidiques selon Pinvention. Par PCR-like on 
entend designer toutes les methodes mettant en osuvre des reproductions directes ou 
indirectes des sequences d'acides nucleiques, ou bien dans lesquelles les systemes 
de marquage ont et£ amplifies, ces techniques sont bien entendu connues. En 
30 general il s'agit de Pamplification de PADN par une polymerase ; lorsque 
Pechantillon d'origine est un ARN il convient prealablement d'effectuer une 
transcription reverse. II existe actuellement de tres nombreux procedes permettant 
cette amplification, comme par exemple la technique SDA (Strand Displacement 
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Amplification) ou technique ^amplification a deplacemeut de brin (Walker et al., 
1992), la technique TAS (Transcription-based Amplification System) decrite par 
Kwoh et al. (1989), la technique 3SR (Self-Sustained Sequence Replication) decrite 
par Guatelli et al. (1990), la technique NASBA (Nucleic Acid Sequence Based 
5 Amplification) decrite par Kievitis et al. (1991), la technique TMA (Transcription 
Mediated Amplification), la technique LCR (Ligase Chain Reaction) decrite par 
Landegren et al. (1988), la technique de RCR (Repair Chain Reaction) decrite par 
Segev (1992), la technique CPR (Cycling Probe Reaction) decrite par Duck et al 
(1990), la technique d 5 amplification a la Q-beta-replicase decrite par Miele et al. 
1 0 (1983). Certaines de ces techniques ont depuis ete perfectionnees. 

Dans le cas ou le polynucleotide cible a detecter est un ARNm, on utilise 
avantageusement, prealablement a la mise en oeuvre d'une reaction d'amplification 
a Paide des amorces selon P invention ou a la mise en oeuvre d'un procede de 
detection a l'aide des sondes de l'invention, une enzyme de type transcriptase 
15 inverse afin d'obtenir un ADNc a partir de l'ARNm contenu dans Pechantillon 
biologique. L'ADNc obtenu servira alors de cible pour les amorces ou les sondes 
rnises en oeuvre dans le procede d'amplification ou de detection selon l'invention. 

La technique d'hybridation de sondes peut etre realisee de manieres diverses 
(Matthews et al, 1988). La methode la plus generale consiste a immobiliser Pacide 
20 nucleique extrait des cellules de differents tissus ou de cellules en culture sur un 
support (tels que la nitrocellulose, le nylon, le polystyrene) et a incuber, dans des 
conditions bien definies, Pacide nucleique cible immobilise avec la sonde. Apres 
Phybridation, Pexces de sonde est elimine et les molecules hybrides formees sont 
detectees par la methode appropriee (mesure de la radioactivite, de la fluorescence 
25 ou de Pactivite enzymatique liee a la sonde). 

Selon un autre mode de mise en oeuvre des sondes nucleiques selon 
Pinvention, ces dernieres peuvent etre utilisees comme sondes de capture. Dans ce 
cas, une sonde, dite « sonde de capture », est immobilisee sur un support et sert a 
capturer par hybridation specifique Pacide nucleique cible obtenu a partir de 
30 Pechantillon biologique a tester et Pacide nucleique cible est ensuite detecte grace a 
une seconde sonde, dite « sonde de detection », marquee par un element facilement 
detectable. 
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Parmi ies fragments d'acides nucieiques interessants, ii taut ainsi citer en 
particalier les oligonucleotides anti-sens, c'est-a-dire dont la structure assure, par 
hybridation avec la sequence cible, une inhibition de F expression du produit 
correspondant. II faut egalement citer les oligonucleotides sens qui, par interaction 
5 avec des proteines impliquees dans la regulation de l'expression du produit 
correspondant, induiront soit une inhibition, soit une activation de cette expression. 

Dans les deux cas (sens et anti-sens), les oligonucleotides de Invention 
peuvent etre utilises in vitro et in vivo. 

La presente invention concerne egalement un polypeptide isole caracterise 
10 en ce qu'il comprend un polypeptide choisi parmi : 

a) un polypeptide de sequence SEQ ID N° 2 ou SEQ ID N° 5 ; 

b) un polypeptide variant d'un polypeptide de sequence definie en 
a); 

c) un polypeptide homologue a un polypeptide defini en a) ou b), 
15 comportant au moins 80 % d'identite avec ledit polypeptide de 

a); 

d) un fragment d'au moins 15 acides amines consecutifs d'un 
polypeptide defini en a) , b) ou c) ; 

e) un fragment biologiquement actif d'un polypeptide defini en a), 
20 b)ouc). 

Par « polypeptide », on entend, au sens de la presente invention, designer 
des proteines ou des peptides. 

Par « fragment biologiquement actif », on entend un fragment possedant la 
meme activite biologique que le fragment peptidique dont il est deduit, de 

25 preference dans le meme ordre de grandeur (a un facteur 10 pres). Ainsi, les 
exemples montrent que la proteine D3D1 (SEQ ID N° 2) a un role potentiel dans les 
phenomenes d'apoptose. Un fragment biologiquement actif de la proteine IBD1 
consiste done en un polypeptide issu de SEQ ID N° 2 possedant egalement un role 
dans l'apoptose. Les exemples ci-apres proposent des fonctions biologiques pour les 

30 proteines D3D1 et BDlprox, en fonction des domaines peptidiques de ces proteines 
et permettent ainsi a l'homme du metier d'identifier les fragments biologiquement 
actifs. 
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De preference un polypeptide scion l'invention esi un polypeptide constitu6 
de la sequence SEQ ED N° 2 (correspondant a la proteine codee par le gene EBD1) 
ou de la sequence SEQ DD N° 5 (correspondant a la proteine codee par IBDlprox) 
ou d'une sequence possedant au moins 80 % d'identite avec SEQ ID N° 2 ou SEQ 
5 ID N° 5 apres alignement optimal. 

La sequence du polypeptide presente un pourcentage d'identite d'au moins 
80 % apres alignement optimal avec les sequences SEQ ID N° 2 ou SEQ ID N° 5, 
de preference 90 %, de fa<?on plus preferee 98 % 

Par polypeptide dont la sequence decides amines presentant un pourcentage 

1 0 d'identite d'au moins 80 %, de preference 90 %, de fafon plus preferee 98 %, apres 
alignement optimal avec une sequence de reference, on entend designer les 
polypeptides presentant certaines modifications par rapport au polypeptide de 
reference, comme en particulier une ou plusieurs deletions, troncations, un 
allongement, une fusion chimerique, et/ou une ou plusieurs substitutions. 

15 Parmi les polypeptides dont la sequence d'acides amines presentant un 

pourcentage d'identite d'au moins 80 %, de preference 90 %, de fa9on plus preferee 
98 %, apres alignement optimal avec les sequences SEQ ID N° 2, SEQ ID N° 5 ou 
avec l'un de leurs fragments selon l'invention, on prefere les polypeptides variants 
codes par les sequences nucleiques variantes telles que precedemment definies, en 

20 particulier les polypeptides dont la sequence d'acides amines presente au moins une 
mutation correspondant notamment a une troncation, deletion, substitution et/ou 
addition d'au moins un residu d'acide amine par rapport aux sequences SEQ ID N° 
2, SEQ ID N° 5 ou avec l'un de leurs fragments, de maniere plus preferee les 
polypeptides variants presentant une mutation liee a une pathologie. 

15 La presente invention concerne egalement les vecteurs de clonage et/ou 

d'expression comprenant un acide nucleique ou codant pour un polypeptide selon 
Tinvention. Un tel vecteur peut egalement contenir les elements necessaires a 
Pexpression et eventuellement a la secretion du polypeptide dans une cellule hote. 
Une telle cellule hote est egalement un objet de Tinvention. 

10 Les vecteurs caracterises en ce qu'ils component une sequence de 

promoteur et/ou de regulateur selon l'invention, font egalement partie de 
Tinvention. 
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Lesdits vecteurs component de preference un promoteur, des signaux 
d'initiation et de terminaison de la traduction, ainsi que des regions appropriees de 
regulation de la transcription. lis doivent pouvoir etre maintenus de fa?on stable 
dans la cellule et peuvent eventuellement posseder des signaux particuliers 
5 specifiant la secretion de la proteine traduite. 

Ces differents signaux de controle sont choisis en fonction de Phote 
cellulaire utilise. A cet effet, les sequences d'acide nucleique selon Pinvention 
peuvent etre inserees dans des vecteurs a replication autonome au sein de Phote 
choisi, ou des vecteurs integratifs de Phote choisi. 
10 Parmi les systemes a replication autonome, on utilise de preference en 

fonction de la cellule hote, des systemes de type plasmidique ou viral, les vecteurs 
viraux pouvant notamment etre des adenovirus (Perricaudet et al, 1992), des 
retrovirus, des lentivirus, des poxvirus ou des virus herpetiques (Epstein et al. s 
1992). L'homme du metier connait les technologies utilisables pour chacun de ces 
1 5 systemes. 

Lorsque Pon souhaite Integration de la sequence dans les chromosomes de 
la cellule hote, on peut utiliser par exemple des systemes de type plasmidique ou 
viral ; de tels virus sont, par exemple, les retrovirus (Temin, 1986), ou les AAV 
(Carter, 1993). 

20 Parmi les vecteurs non viraux, on prefere les polynucleotides nus tels que 

l'ADN nu ou TARN nu selon la technique developpee par la societe VICAL, les 
chromosomes artificiels de bacterie (BAC, bacterial artificial chromosome), les 
chromosomes artificiels de levure (YAC, yeast artificial chromosome) pour 
Pexpression dans la levure, les chromosomes artificiels de souris (MAC, mouse 

25 artificial chromosome) pour repression dans les cellules murines et de maniere 
preftree les chromosomes artificiels d'homme (HAC, human artificial 
chromosome) pour ['expression dans les cellules humaines. 

De tels vecteurs sont prepares selon les methodes couramment utilisees par 
Phomme du metier, et les clones en resultant peuvent etre introduits dans un hote 

30 approprie par des methodes standard, telles que par exemple la lipofection, 
Pelectroporation, le choc thermique, la transformation apres permeabilisation 
chimique de la membrane, la fusion cellulaire. 
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L'invention comprend en outre ies ceiiuies botes, notamment ies cellules 
eucaryotes et procaryotes, transformees par les vecteurs selon T invention ainsi que 
les animaux transgeniques, de preference les mammiferes, excepte THomme, 
comprenant une desdites cellules transformees selon Tinvention. Ces animaux 
5 peuvent etre utilises en temps que modeles, pour r etude de Tetioiogie de maladies 
inflammatoires et/ou immunes, et en particulier des maladies inflammatoires du 
tube digestif, ou pour T etude de cancers. 

Parmi les cellules utilisables aux sens de la presente invention, on peut citer 
ies cellules bacteriennes (Olins et Lee, 1993), mais aussi les cellules de levure 
10 (Buckholz, 1993), de meme que les cellules animates, en particulier les cultures de 
cellules de mammiferes (Edwards et Aruffo, 1993), et notamment les cellules 
d'ovaire de hamster chinois (CHO). On peut citer egalement les cellules d'insectes 
dans lesquelles on peut utiliser des precedes mettant par exemple en ceuvre des 
baculovirus (Luckow, 1993). Un hote cellulaire prefere pour I* expression des 
1 5 proteines de Tinvention est constitue par les cellules COS. 

Parmi les mammiferes selon Tinvention, on prefere des animaux tels que les 
rongeurs, en particulier les souris, les rats ou les lapins, exprimant un polypeptide 
selon Tinvention. 

Parmi les mammiferes selon Tinvention, on prefere egalement des animaux 
20 tels que les souris, les rats ou les lapins, caracterises en ce que le gene codant pour 

la proteine de sequence SEQ ID N° 2 ou SEQ ID N° 5, ou dont la sequence est 

codee par le gene homologue chez ces animaux, n'est pas fonctionnel, est invalide 

ou presente au moins une mutation. 

Ces animaux transgeniques sont obtenus par exemple par recombinaison 
25 homologue sur cellules souches embryonnaires, transfert de ces cellules souches a 

des embryons, selection des chimeres affectees au niveau des lignees 

reproductrices, et croissance desdites chimeres. 

Les animaux transgeniques selon Tinvention peuvent ainsi surexprimer le 

gene codant pour la proteine selon Tinvention, ou leur gene homologue, ou 
30 exprimer ledit gene dans lequel est introduite une mutation. Ces animaux 

transgeniques, en particulier des souris, sont obtenus par exemple par transfection 

de copie de ce gene sous controle d'un promoteur fort de nature ubiquitaire, ou 

selectif d'un type de tissu, ou apres transcription virale. 
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Alternativement, les animaux transgeniques selon 1 'invention peuvent etre 
rendus deficients pour le gene codant pour Tun des polypeptides de sequences SEQ 
ID N° 2 ou SEQ ID N° 5, ou leurs genes homologues, par inactivation a Paide du 
systeme LOXP/CRE recombinase (Rohlmann et al., 1996) ou de tout autre systeme 
5 deactivation de P expression de ce gene. 

Les cellules et mammiferes selon Pinvention sont utilisables dans une 
methode de production d'un polypeptide selon 1 invention, comme decrit ci- 
dessous, et peuvent egalement servir a titre de modele d'analyse. 

Les cellules ou mammiferes transformes tels que decrits precedemment 
10 peuvent aussi etre utilises a titre de modeles afin d'etudier les interactions entre les 
polypeptides selon l'invention, et les composes chimiques ou proteiques, impliques 
directement ou indirectement dans les activites des polypeptides selon l'invention, 
ceci afin d'etudier les differents mecanismes et interactions mis en jeu. 

lis peuvent en particulier etre utilises pour la selection de produits 
15 interagissant avec les polypeptides selon ['invention, notamment la proteine de 
sequence SEQ ID N° 2 ou SEQ ID N° 5 ou leurs variants selon P invention, a titre 
de cofacteur, ou d'inhibiteur, notamment competitif, ou encore ayant une activite 
agoniste ou antagoniste de Pactivite des polypeptides selon Pinvention. De 
preference, on utilise lesdites cellules transformees ou animaux transgeniques a titre 
20 de modele notamment pour la selection de produits permettant de lutter contre les 
pathologies liees a une expression anormale de ce gene. 

L'invention concerne egalement Putilisation d'une cellule, d'un mammifere 
ou d'un polypeptide selon Pinvention pour le criblage de composes chimiques ou 
biochimiques pouvant interagir directement ou indirectement avec les polypeptides 
25 selon Pinvention, et/ou capable de moduler Pexpression ou Pactivite de ces 
polypeptides. 

De la meme fa<?on, Pinvention concerne aussi un procede de criblage de 
composes capables d'interagir in vitro ou in vivo avec un acide nucleique selon 
Pinvention, en utilisant un acide nucleique une cellule ou un mammifere selon 
30 Pinvention, et en detectant la formation d'un complexe entre les composes 
candidats et Pacide nucleique selon Pinvention. 

Les composes ainsi s61ectionnes sont egalement objets de Pinvention. 
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L'invention concerne aussi l'utilisation d'une sequence d'acide nucleique 
selon 1'invention pour la synthese de polypeptides recombinants. 

La methode de production d'un polypeptide de T invention sous forme 
recombinante, elle-meme comprise dans la presente invention, se caracterise en ce 
5 que Ton cultive les cellules transformees, notamment les cellules ou mammiferes de 
la presente invention, dans des conditions permettant l'expression d'un polypeptide 
recombinant code par une sequence d'acide nucleique selon 1'invention, et que Ton 
recupere ledit polypeptide recombinant. 

Les polypeptides recombinants, caracterises en ce qu'ils sont susceptibies 
10 d'etre obtenus par ladite methode de production, font egalement partie de 
Pinvention. 

Les polypeptides recombinants obtenus comme indique ci-dessus, peuvent 
aussi bien se presenter sous forme glycosylee que non giycosylee et peuvent 
presenter ou non la structure tertiaire naturelle. 
15 Les sequences des polypeptides recombinants peuvent etre egalement 

modifiees afin d'ameliorer leur solubilite, en particulier dans les solvants aqueux. 

De telles modifications sont connues de i'homme du metier comme par 
exemple la deletion de domaines hydrophobes ou la substitution d'acides amines 
hydrophobes par des acides amines hydrophiles. 
20 Ces polypeptides peuvent etre produits a partir des sequences d'acide 

nucleique definies ci-dessus, selon les techniques de production de polypeptides 
recombinants connues de I'homme du metier. Dans ce cas, la sequence d'acide 
nucleique utilisee est placee sous le controle de signaux permettant son expression 
dans un hote cellulaire. 
25 Un systeme efficace de production d'un polypeptide recombinant necessite 

de disposer d'un vecteur et d'une cellule hote selon 1'invention. 

Ces cellules peuvent etre obtenues par 1' introduction dans des cellules hotes 
d'une sequence nucleotidique inseree dans un vecteur tel que defini ci-dessus, puis 
la mise en culture desdites cellules dans des conditions permettant la replication 
30 et/ou ^expression de la sequence nucleotidique transferee. 

Les procedes utilises pour la purification d'un polypeptide recombinant sont 
connus de I'homme du metier. Le polypeptide recombinant peut etre purifie a partir 
de lysats et extraits cellulaires, du surnageant du milieu de culture, par des 
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methodes utilisees individuellement ou en combinaison, telles que le 
fractionnement, les methodes de chromatographic, Jes techniques d'immunoaffinite 
a Faide d'anticorps monoclonaux ou polyclonaux specifiques, etc. . . 

Les polypeptides selon la presente invention peuvent aussi etre obtenus par 
5 synthese chimique en utilisant F une des nombreuses syntheses peptidiques connues, 
par exemple les techniques mettant en oeuvre des phases solides (voir notamment 
Stewart et al., 1984) ou des techniques utilisant des phases solides partielles, par 
condensation de fragments ou par une synthese en solution classique. 

Les polypeptides obtenus par synthese chimique et pouvant comporter des 
1 0 acides amines non naturels correspondants sont egalement compris dans Finvention. 

Les anticorps mono- ou polyclonaux ou leurs fragments, anticorps 
chimeriques ou immunoconjugues, caracterises en ce qu'ils sont capables de 
reconnaitre specifiquement un polypeptide selon Finvention, font partie de 
Finvention. 

15 Des anticorps polyclonaux specifiques peuvent etre obtenus a partir d'un 

serum d'un animal immunise contre les polypeptides selon Finvention, notamment 
produit par recombinaison genetique ou par synthese peptidique, selon les modes 
operatoires usuels. 

On note notamment Finteret d'anticorps reconnaissant de fa?on specifique 
20 certains polypeptides, variants, ou leurs fragments immunogenes, selon Finvention. 

Les anticorps mono- ou polyclonaux ou leurs fragments, anticorps 
chimeriques ou immunoconjugues, caracterises en ce qu'ils sont capables de 
reconnaitre specifiquement les polypeptides de sequence SEQ ID N° 2 ou SEQ ID 
N° 5 sont particulierement preferes. 
25 Les anticorps monoclonaux specifiques peuvent etre obtenus selon la 

methode classique de culture d'hybridomes decrite par Kohler et Milstein (1975). 

Les anticorps selon Finvention sont, par exemple, des anticorps 
chimeriques, des anticorps humanises, des fragments Fab ou F(ab') 2 . Us peuvent 
egalement se presenter sous forme d'immunoconjugues ou d'anticorps marques afin 
30 d'obtenir un signal detectable et/ou quantifiable. 

L'invention concerne egalement des methodes pour la detection et/ou la 
purification d'un polypeptide selon Finvention, caracterisees en ce qu'elles mettent 
en ceuvre un anticorps selon Finvention. 
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V invention comprend en outre des polypeptides purifies, caracterises en ce 
qu'ils sont obtenus par une methode selon l'invention. 

Par ailleurs, outre leur utilisation pour la purification des polypeptides, les 
anticorps de invention, en particulier les anticorps monoclonaux, peuvent 
5 egalement etre utilises pour la detection de ces polypeptides dans un echantillon 
biologique. 

lis constituent ainsi un moyen d'analyse immunocytochimique ou immuno- 
histochimique de l'expression des polypeptides selon ['invention, notamment les 
polypeptides de sequence SEQ ID N° 2, SEQ ID N° 5 ou Tun de leurs variants, sur 
1 0 des coupes de tissus specifiques, par exemple par immunofluorescence, marquage a 
For, immuno-conjugues enzymatiques. 

lis peuvent permettre notamment de mettre en evidence une expression 
anormale de ces polypeptides dans les tissus ou prelevements biologiques. 

Plus generalement, les anticorps de ^invention peuvent etre 
15 avantageusement mis en oeuvre dans toute situation ou ^expression d'un 
polypeptide selon 1' invention, normal ou mute, doit etre observee. 

Ainsi, un procede de detection d'un polypeptide selon ^invention dans un 
echantillon biologique, comprenant les etapes de mise en contact de I'echantillon 
biologique avec un anticorps selon r invention et de mise en evidence du complexe 
20 antigene-anticorps forme est egalement un objet de Invention, ainsi qu'une trousse 
permettant de mettre en oeuvre un tel procede. Une telle trousse contient en 
particulier : 

a) un anticorps monoclonal ou polyclonal selon 1 'invention ; 

b) eventuellement des reactifs pour la constitution d'un milieu 
25 propice a la reaction immunologique ; 

c) les reactifs permettant la detection du complexe antigene- 
anticorps produit lors de la reaction immunologique. 

Les anticorps selon r invention peuvent egalement etre utilises dans le 
traitement d'une maladie inflammatoire et/ou immune, ou d un cancer, chez 
30 Thomme, lorsque Ton observe une expression anormale du gene IBD1 ou du gene 
IBDlprox. Une expression anormale signifie une surexpression ou Pexpression 
d'une proteine mutee. 
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Ces anticorps peuvent etre obtenus directement a partir de serum humain, ou 
a partir d'animaux immunises avec des polypeptides selon l'invention, puis 
« humanises », et peuvent etre utilises tels quels ou dans la preparation d'un 
medicament destine au traitement des maladies precitees. 
5 Font egalement partie de r invention, les methodes de determination d'une 

variability allelique, d'une mutation, d'une deletion, d'une perte d'heterozygotie ou 
de toute anomalie gen&ique du gene selon V invention, caracterisees en ce qu' elles 
mettent en oeuvre une sequence d'acide nucleique, un polypeptide ou un anticorps 
selon l'invention. 

10 L'invention fournit en effet la sequence des genes EBD1 et IBDlprox 

impliques dans des maladies inflammatoires et/ou immunes, et en particulier les 
MCI. Un des enseignements de l'invention est de preciser les mutations dans ces 
sequences nucleiques ou polypeptidiques, qui sont liees a un phenotype 
correspondant a une des ces maladies inflammatoires et/ou immunes. 

15 On peut detecter ces mutations directement par analyse de l'acide nucleique 

et des sequences selon l'invention (ADN genomique, ARN, ou ADNc), mais 
egalement par 1'intermediaire des polypeptides selon l'invention. En particulier, 
l'utilisation d'un anticorps selon l'invention qui reconnait un epitope portant une 
mutation permet de discriminer entre une proteine «saine» et une proteine 

20 « associee a une pathologie ». 

Ainsi, 1 'etude du gene IBD1 dans diverses maladies inflammatoires et/ou 
immunes humaines montre ainsi qu'il existe des variants de sequence de ce gene 
dans la maladie de Crohn, la rectocolite h6morragique et le syndrome de Blau, 
comme demontre par les exemples. Ces variations de sequence aboutissent a des 

25 variations importantes de la sequence proteique d&luite. En effet, elles sont soit 
localisees sur des sites tres conserves de la proteine dans des domaines fonctionnels 
importants, soit elles aboutissent a la synthese d'une proteine tronquee. II est done 
extremement probable que ces alterations entrament une modification de la fonction 
de la proteine et aient done un effet causal dans la survenue de ces maladies. 

30 La variete des maladies ou sont observees ces mutations suggere que le gene 

IBD1 est potentiellement important dans de nombreuses maladies inflammatoires 
et/ou immunes. Ce resultat est a rapprocher du fait que la region pericentromerique 
du chromosome 16 a ete decrite comme contenant des genes de susceptibilite a 
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diverses maladies humaines idles que ia spondyiarthrite ankyiosante ou ie 
rhumatisme psoriasique. On peut done considerer qu'IBDl a un role important dans 
un grand nombre de maladies inflammatoires et/ou immunes. 

En particulier, on peut associer IBD1 aux maladies inflammatoires 
5 granulomateuses. En effet, le Syndrome de Blau et !a MC sont des maladies faisant 
partie de cette famille. On espere done trouver des variations dans le gene IBD1 
pour les autres maladies de la meme famille (sarcoidose, maladie de Behcet. . .). 

De plus, Timplication de IBD1 dans les voies cellulaires aboutissant a 
Tapoptose souleve la question de son eventuel role carcinogene. En effet, il est 
10 attendu qu'une dysregulation de IBDl puisse aboutir a une predisposition 
cancereuse. Cette hypothese est renforcee par le fait qu'il existe une predisposition 
au cancer du colon dans les maladies inflammatoires de l'intestin. IBD1 pourrait en 
partie expliquer cette susceptibiiite au cancer et definir de nouvelles voies de 
carcinogenese. 

15 La description precise des mutations observables dans le gene IBDl permet 

ainsi de poser les bases d'un diagnostic moleculaire des maladies inflammatoires et 
immunes ou son role est demontre. Une telle demarche, basee sur la recherche de 
mutations dans le gene, permettra de contribuer au diagnostic de ces maladies et 
eventuellement de reduire Timportance de certains examens complementaires 

20 invasifs ou couteux. L'invention pose les bases d'un tel diagnostic moleculaire base 
sur Ia recherche de mutations dans IBDl . 

Le diagnostic moleculaire des maladies inflammatoires devrait aussi 
permettre d'ameliorer la classification nosologique de ces maladies et de mieux 
definir des sous-groupes de malades particuliers par leur caracteristiques cliniques, 

25 l'evolutivite de la maladie ou la reponse a certains traitements. A titre d'exemple, le 
demembrement des mutations existantes pourrait ainsi permettre de classer les 
colites actuellement indeterminees qui represented plus de 10% des maladies 
inflammatoires de l'intestin. Une telle demarche permettra de proposer une prise en 
charge precoce adaptee a chaque patient. D'une maniere generale, une telle 

30 demarche permet d'esperer pouvoir definir a terme une prise en charge 
individualisee de la maladie, en fonction du terrain genetique de chaque malade, 
incluant des mesures curatives et preventives. 
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En pariicuiier, on prefere une methode de diagnostic et/ou devaluation 
pronostique d'une maladie inflammatoire ou d'un cancer caracterisee en ce qu'on 
determine a partir d'un prelevement biologique d'un patient la presence d'au moins 
une mutation et/ou une alteration d'expression du gene correspondant a SEQ ID N° 
5 1 ou SEQ ED N° 4 par Panalyse de tout ou partie d'une sequence nucleique 
correspondant audit gene. On peut aussi etudier les genes SEQ ID N° 3 ou SEQ ID 
N°6. 

Cette methode de diagnostic et/ou devaluation pronostique peut etre utilisee 
de fa?on preventive (etude d'une predisposition a ces maladies inflammatoires ou 

10 au cancer), ou afin de servir a Petablissement et/ou la confirmation d'un etat 
clinique chez un patient. 

De preference, la maladie inflammatoire est une maladie inflammatoire du 
tube digestif, et le cancer est un cancer du tube digestif (intestin grele ou colon). 

L'enseignement de Pinvention permet en effet de connaitre les mutations 

15 presentant un desequilibre de liaison avec les maladies inflammatoires du tube 
digestif, et qui sont done associees a de telles maladies. 

L'analyse peut etre effectuee par sequence de tout ou partie du gene, ou par 
d'autres methodes connues de Phomme du metier. On peut en particulier utiliser 
des methodes basees sur la PCR, par exemple la PCR-SSCP qui permet de detecter 

20 des mutations ponctuelles. 

On peut egalement effectuer Panalyse par fixation d'une sonde selon 
Pinvention correspondant a Pune des sequences SEQ ID N° 1, 3, 4 ou 6 sur une 
puce a ADN et Phybridation sur ces microplaques. Une puce a ADN contenant une 
sequence selon Pinvention est egalement un des objets de Pinvention. 

25 De meme, une puce a prolines contenant une sequence d'acides amines 

selon Pinvention est aussi un objet de Pinvention. Une telle puce a proteines permet 
P etude des interactions entre les polypeptides selon Pinvention et d'autres proteines 
ou des composes chimiques, et peut ainsi etre utile pour le criblage de composes 
interagissant avec les polypeptides selon Pinvention. On peut egalement utiliser les 

30 puces a proteines selon Pinvention pour detecter la presence d'anticorps diriges 
contre les polypetides selon Pinvention dans le serum de patients. On peut aussi 
mettre en oeuvre une puce a proteines contenant un anticorps selon Pinvention. 
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L'homme du metier sail egalemenl mettre en oeuvre des techniques 
permettant 1'etude de l'alteration de l'expression d'un gene, par exemple par 1'etude 
de PARNm (en particulier par Northern Blot ou par des experiences de RT-PCR, 
avec des sondes ou des amorces selon l'invention), ou de la proteine exprimee, en 
5 particulier par Western Blot, en utilisant des anticorps selon l'invention. 

Le gene teste est de preference le gene de sequence SEQ ID N° 1, la maladie 
inflammatoire pour laquelle on cherche a predire la susceptibilite etant une maladie 
du tube digestif, en particulier la maladie de Crohn, ou la rectocolite hemorragique. 
Si Ton cherche a detecter un cancer, il s'agit de preference du cancer du colon. 
1 0 L'invention se rapporte egalement a des procedes d'obtention d'un allele du 

gene IBD1, associe a un phenotype detectable, comprenant les etapes suivantes : 

a) obtenir un echantillon d'acide nucleique d'un individu exprimant 
ledit phenotype detectable ; 

b) mettre en contact ledit echantillon d'acide nucleique avec un 
15 agent capable de detecter specifiquement un acide nucleique 

codant pour la proteine IBD1 ; 

c) isoler ledit acide nucleique codant pour la proteine IBD1 . 

Un tel procede peut etre suivi d une etape de sequence de tout ou partie de 
l'acide nucleique codant pour la proteine IBD1, ce qui permet de predire la 

20 susceptibilite a une maladie inflammatoire ou d'un cancer. 

Uagent capable de detecter specifiquement un acide nucleique codant pour 
la proteine IBD1 est avantageusement une sonde d'oligonucleotides selon 
l'invention, qui peut etre formee d'ADN, d'ARN, de PNA, modifies ou non. Les 
modifications peuvent inclure un marquage radioactif ou fluorescent, ou etre dues a 

25 des modifications dans les liaisons entre les bases (phosphorothioates, ou 
methylphosphonates par exemple). L'homme du metier connait les protocoles 
permettant d'isoler une sequence specifique d'ADN. L'etape b) du procede ci- 
dessus decrit peut egaJement etre une etape d'amplification telle que decrite 
precedemment. 

30 L'invention se rapporte egalement a un procede de detection et/ou de dosage 

d'un acide nucleique selon Tinvention dans un echantillon biologique, comprenant 
les etapes suivantes de mise en contact d'une sonde selon l'invention avec un 
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echantillon biclogique et de detection et/ou dosage de Thybride forme entre ledit 
polynucleotide et Tacide nucleique de Techantillon biologique. 

L'homme du metier sait mettre en oeuvre un tel procede, et peut en 
particulier utiliser une trousse de reactifs comprenant : 
5 a) un polynucleotide selon Tinvention, utilise en tant que sonde ; 

b) les reactifs necessaires a la mise en oeuvre d'une reaction 
d' hybridation entre ladite sonde et l'acide nucleique de 
T echantillon biologique ; 

c) les reactifs necessaires a la detection et/ou le dosage de rhybride 
10 forme entre ladite sonde et l'acide nucleique de Techantillon 

biologique ; 
qui est egalement un objet de Tinvention. 

Une telle trousse peut egalement contenir des controles positifs ou negatifs 

afin d' assurer la qualite des resultats obtenus. 
15 Toutefois, afin de detecter et/ou doser un acide nucleique selon Tinvention, 

Thomme du metier peut egalement effectuer une etape d'amplification a Taide 

d'amorces choisies parmi les sequences selon Tinvention. 

Enfin, Tinvention concerne egalement les composes choisis parmi un acide 

nucleique, un polypeptide, un vecteur, une cellule, ou un anticorps selon 
20 Tinvention, ou les composes obtenus par les procedes de criblage selon Tinvention, 

a titre de medicament, en particulier pour la prevention et/ou le traitement d'une 

maladie inflammatoire et/ou immune ou d'un cancer, associe a la presence d'au 

moins une mutation du gene correspondant a SEQ ID N° 1 ou SEQ ID N° 4, de 

preference une maladie inflammatoire du tube digestif, en particulier la maladie de 
25 Crohn ou la rectocolite hemorragique. 

Les exemples qui suivent permettent de mieux comprendre les avantages de 

Tinvention et ne doivent pas etre consideres comme limitant la portee de 

Tinvention. 

DESCRIPTION DES FIGURES 

30 Figure 1 : tests de liaison genetique non parametrique pour la maladie de Crohn 
dans la region pericentromerique du chromosome 16 (d'apres Hugot et aL, 1996). 
Analyse de liaison multipoint base sur Tidentite par descendance pour les 
marqueurs de la region pericentromerique du chromosome 16. Les distances 
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genetiques entre marqueurs ont ete estimees grace au programme CRIMAP. Le lod 
score (MAPMAKER/SmS) est indique sur la figure de gauche. Deux tests de 
pseudo vraisemblance ont ete developpes et rapportes sur la figure de droite. Le 
premier (Tz) est analogue au test des moyennes. Le deuxieme (Tz2) est analogue au 
5 test de la proportion des paires d'affectes partageant deux alleles. 

Figure 2 : analyse de liaison genetique multipoint non parametrique. 78 families 
avec plusieurs apparentes atteints de Maladie de Crohn ont ete genotypees pour 26 
marqueurs de polymorphisme dans la region pericentromerique du chromosome 16. 
La localisation de chaque marqueur est symbolisee par une fleche. L'ordre des 

10 marqueurs et la distance les separant derive de P analyse des donnees 
experimentales avec le logiciel Crimap. Les fleches sous la courbe indiquent les 
marqueurs SPN, D16S409 et D16S411 utilises dans la premiere etude publiee 
(Hugot et ah, 1996).Les fleches situees en haut de la figure correspondent aux 
marqueurs D16S3136, D16S541, D16S3117, D16S416 et D16S770 localises au 

15 maximum du test de liaison genetique. Les donnees de typage ont ete analysees a 
Paide du programme d'analyse multipoint non parametrique du logiciel Genehunter 
version 1 .3. Le maximum du NPL Score est de 3,33 (p=0,0004). 
Figure 3 : representation schematique de la proteine codee par IBD1. La proteine 
codee par IBD1 est representee horizontalement. Les differents domaines qui la 

20 composent sont indiques sur la figure avec le numero de reference des acides 
amines correspondant au debut et a la fin de chaque domaine. La proteine est 
constitute d'un domaine CARD, d'un domaine liant les nucleotides (NBD) et de 
motifs riches en leucines (LRR). 

Figure 4 : representation schematique de la proteine IBD1/NOD2 dans trois variants 
25 associes a MC. 

A : Le produit de traduction deduit de la sequence d'ADNc du gene candidat IBD1 
est identique a celui de NOD2 (Ogura et al., 2000). Le polypeptide contient 2 
domaines CARD (CAspase Recruitment Domains), un domaine de liaison aux 
nucleotides (NBD) et 10 repetitions de 27 acides amines, des motifs riches en 
30 leucine (LRR). La sequence consensus du site du motif A (boucle P) liant 
PATP/GTP du NBD est indiquee par un cercle noir. Les changements de sequences 
codes par les trois principaux variants associes a MC sont SNP 8 (R675W), SNP 12 
(G881R) et SNP 13 (deplacement de cadre 980). Le deplacement de cadre change 
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un codon leucine en un codon proline a !a position 980 qui est immediatement suivi 
par un codon stop. 

B : Variants faux sens rares de NOD2 chez 457 patients MC, 159 patients RCH et 
103 individus non apparentes, non atteints. Les positions des variants faux sens 
5 rares sont indiquees pour les trois groupes. L'echelle a gauche indique le nombre de 
chaque variant identifie dans les groupes faisant l'objet de recherche et celle a 
droite mesure la frequence de la mutation. Les frequences alleliques du 
polymorphisme V928I n'etaient pas significativement differentes( 0,92 : 0,08) dans 
les trois groupes et les genotypes correspondants etaient en equilibre Hardy- 
10 Weinberg. 

EXEMPLES 

Exemple 1 ; localisation fine de IBD1 

La premiere etape vers ^identification du gene IBD1 a ete de reduire la taille 

15 de la region genetique d'interet, initialement centree sur le marqueur D16S41 1 situe 
entre D16S409 et D16S419 (Hugot et al., 1996 et fig. 1). Un groupe de marqueurs 
proches (carte genetique a haute resolution) a ete utilise pour mieux preciser la 
region genetique et a permis de completer les analyses de liaison genetique et de 
rechercher un desequilibre de liaison genetique avec la maladie. 

20 L'etude a porte sur 78 families comportant au moins 2 apparentes atteints de 

MC, qui correspondaient a 119 paires d'affectes. Les families comportant des 
malades atteints de RCH ont ete exclues de Tetude. 

Vingt-six marqueurs genetiques de polymorphisme de type microsatellites 
ont ete etudies. Ces marqueurs formaient ensemble une carte a haute resolution avec 

25 une distance moyenne entre marqueurs de l'ordre de lcM dans la region genetique 
d'interet. Les caracteristiques des marqueurs etudies sont rapportes sur le tableau 1. 

Tableau 1. Marqueurs polvmorphes de type microsatellite utili ses pour la 
localisation fine de IBD1 



Nom du marqueur de 
polymorphisme 


Distance 
cumulee (cM) 


Amorces PCR 


D16S3120 
(AFM326vc5) 


0 


SEQ ID N° 7 
SEQE>N°8 


D16S298 
(AFMal89wg5) 


2,9 


SEQ ID N° 9 
SEQ ID N° 10 
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TN 1 ^OOAH 


3,4 


SEQ ID N° 1 1 






SEQ ID N° 12 


SPN 


3,9 


SEQ ID N° 13 






SEQ ID N° 14 


TN 1 Z* O O OO 

D16S383 


4,3 


SEQ ID N° 15 






OT^/~V Tl *v "V Tr» 1 s~ 

SEQ DDN° 16 


D16S753 


4,9 


SEQ ID N° 17 


(LKjAAjCjUS) 




SEQ ID N° 1 8 


D16S3044 


5,8 


SEQ IDN° 19 


(A_rMa222za9) 




SEQ ID N° 20 




5,8 


SEQ IDN° 21 


(AbMlolxal) 




SEQ ID N° 22 


TN 1 O 1 1 A C 

DI6S3105 


6,1 


SEQ ID N° 23 


(ArMb341zc5) 




SEQ ID N° 24 


D16S261 


6,8 


SEQ ID N° 25 


(MFD24) 




SEQ ID N° 26 


D16S540 


6,9 


SEQ ID N° 27 


(GATA7B02) 




SEQ ID N° 28 


D16S3080 


7 


SEQ ID N° 29 


(AFMb068zb9) 




SEQ ID N° 30 


D16S517 


7 


SEQ ID N° 31 


(AFMal32we9) 




SEQ ID N° 32 


D16S411 


8 


SEQ ID N° 33 


(AFM186xa3) 




SEQ ID N° 34 


D16S3035 


10,4 


SEQ IDN°35 


(ArMal89wg5) 




SEQ IDN°36 


D16S3136 


10,4 


SEQ ID N° 37 


(AJhMa061xe5) 




SEQ ID N° 38 


D16S541 


11,4 


SEQ ID N° 39 


( ATA TCAO^ 

(OA1 A/hU2) 




SEQJD N° 40 


TN 1 ^OO 1 IT 

D16S31 17 


11,5 


SEQ ID N° 41 


/ A T7A /TO OO L 1 \ 

(Ai^M258wbl) 




SEQ ID N° 42 


D16S416 


12,4 


SEQ ID N° 43 


(AFM2l0yg3) 




SEQ ID N° 44 


D16S770 


13,2 


SEQ ID N° 45 


(Cj(j*AA20(jr02) 




SEQ ID N° 46 


DI6S2623 


15 


SEQ ID N° 47 


(CjAI Aolol2) 




SEQ ID N° 48 




1 A N 


ohQ ID JN 49 






SEQ ID N° 50 


D16S419 


20,4 


SEQ ID N° 51 


(AFM225zf2) 




SEQ ED N° 52 


D16S771 


21,8 


SEQ ID N° 53 


(GGAA23C09) 




SEQ ID N° 54 


D16S408 


25,6 


SEQ ID N° 55 


(AFM137xfB) 




SEQ ID N° 56 


D16S508 


38,4 


SEQ ID N° 57 


(AFM304xfl) 




SEQ ID N° 58 
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— uol .^!^ma..iiv ooivn ia uumciiuiatujc unci national e et le 
plus souvent par le nom propose par le laboratoire d'origine. Les marqueurs 
apparaissent selon leur ordre sur le chromosome (de I6p vers I6q). La distance 
gen&ique entre les marqueurs (en centiMorgan Kosambi, calculee par le 
5 programme Crimap a partir des donnees experimentales) est indiquee dans la 
deuxieme colonne. Le premier marqueur polymorphe est pris arbitrairement comme 
point de reference. Les oligonucleotides ayant servi a la reaction de polymerisation 
en chaine (PCR) sont indiques dans la troisieme colonne. 

Le genotypage de ces marqueurs microsatellites a repose sur la technologic 
10 des sequenceurs automatiques utilisant des amorces fluorescentes. Brievement, 
apres amplification, les produits de reaction de polymerisation en chaine (PCR) 
fluorescents ont ete deposes sur un gel de polyacrylamide sur sequenceur 
automatique selon les recommandations du constructed (Perkin Elmer). La taiJle 
des alleles pour chaque sujet a ete deduite grace au logiciels Genescan R et 
15 Genotyper R Les donnees ont ensuite ete conservees sur une base informatique 
integree contenant les donnees genealogiques, phenotypiques et genetiques. Elles 
ont alors ete utilisees pour les analyses de liaison genetique. 

Plusieurs controls qualite ont ete realises tout au long de la procedure de 
genotypage: 

20 - double lecture independante des donnees de genotypage, 

- utilisation d'un ADN standard servant de contrSle interne pour chaque 
migration electrophoretique, 

- controle de la gamme de taille de chaque allele observe, 

- recherche d'erreurs de transmission mendelienne , 

25 " ca,cul d ^ la distance genetique entre marqueurs (programme CRIMAP) 

et comparaison de celle-ci avec les donnees de la litterature, 

- nouveau typage des marqueurs pour lesquels il etait observe une 
recombinaison entre marqueurs proches. 

Les donnees de genotypage ont ete analysees par des methodes de liaison 
30 genetique multipoint non parametrique (Programme GENEHUNTER version 1.3). 
L'informativite du systeme de marqueurs etait superieure a 80% pour la region 
etudiee. Le maximum du test (NPL= 3,33; P = 0,0004) a ete obtenu pour les 
marqueurs D16S541, D16S3 117, D16S770 et D16S416 (figure 2). 
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— cd uuii.icco «^ v^ugu ]yv/u» mttiLjuCuia uc puiyniuiphisme ont aussi 

ete analysees a la recherche d'un desequilibre de transmission. Deux groupes de 108 
et 76 families avec un ou plusieurs malades atteints de MC ont ete etudies. Le test 
statistique de desequilibre de transmission a ete decrit par Spielman et al. (1993). II 
5 n f a ete pris en compte dans ce travail qu'un seul malade par famille et la valeur de p 
a ete corrigee par le nombre d'alleles testes pour chaque marqueur etudie. 

Un desequilibre de transmission a ete observe pour les alleles 4 et 5 (taille 
205, resp. 207 paires de bases) du marqueur D16S3136 (p=0,05, resp. p=0,01). 

Ces resultats suggestifs d'une association entre le marqueur D16S3136 et la 
10 MC ont conduit a construire une cartographie physique de la region genetique 
centree sur D16S3136 et a etablir la sequence d'un segment d'ADN genomique de 
grande taille (BAC) contenant ce site polymorphe. II a alors ete possible d'identifier 
et d'analyser un plus grand nombre de marqueurs de polymorphisme dans le 
voisinage de D16S3136 ainsi que de definir et d'etudier les sequences transcrites 
1 5 presentes dans la region. 

Exemple 2 : cart ographie physique de la region IBD1 

Un contig de fragments d'ADN genomique, centre sur les marqueurs 
D16S3136, D16S3117, D16S770 et D16S416, a ete genere a partir des banques 

20 d'ADN genomique humain de la fondation Jean DaussetyCEPH. Les segments 
d'ADN chromosomique ont ete identifies a partir de certains marqueurs de 
polymorphisme utilises dans la cartographie genetique fine (D16S411, D16S416, 
D16S541, D16S770, D16S2623, D16S3035, D16S3117 et D16S3136). Pour chaque 
marqueur, une banque de chromosomes artificiels de bacteries (BAC) a ete criblee 

25 par PCR a la recherche de clones contenant la sequence du marqueur. Selon que les 
sequences testees etaient ou non presentes sur les clones de BAC ii a ete alors 
possible d'organiser les clones entre eux a J'aide du logiciel Segmap version 3.35. 

On a pu etablir, pour les BACs, une organisation continue (contig) couvrant 
la region gen6tique d'interet, selon une methode connue de Thomme du metier 

30 (Rouquier et a!., 1994 ; Kim et al, 1996 ; Asakawa et al., 1997). Pour ce faire, les 
extremites des BACs identifies ont ete sequencees et ces nouvelles donnees de 
sequence ont alors servi a cribler iterativement les banques de BACs. A chaque 
criblage, le contig de BAC a alors progresse d'un pas jusqu'a l'obtention d'un 
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continuum dc clones chcvauchants. La taiiic de chaque BAC participant au coiUig & 
ete deduite de son profil de migration sur gel d'agarose en champ pulse. 

On a ainsi construit un contig de BAC contenant 101 BACs et s'etendant sur 
une distance globale de plus de 2,5 Mb avec une redondance moyenne de 5,5 BAC 
5 a chaque point du contig. La taille moyenne des BAC est de 1 36kb. 

Exemple 3 : sequenpage du BAC hb87b!0 

Le BAC de ce contig contenant le marqueur de polymorphisme D16S3136 
(appele hb87bl0), dont la taille etait de 163761 bp a ete sequence selon la methode 

10 dite du "coup de fusil". En bref, l'ADN du BAC a &e fragmente par sonication. Les 
fragments d'ADN ainsi generes ont ete soumis a une electrophorese en gel d'agarose 
et ceux dont la taille etait superieure a 1,5 kb ont ete 61us pour etre analyses. Ces 
fragments ont ensuite ete clones dans le phage ml3 lui meme introduit dans des 
bacteries rendues competentes par electroporation. Apres culture, l'ADN des clones 

15 a ete recupere et sequence par des methodes de sequen9age automatique a Paide 
d'amorces fluorescentes du vecteur ml3 sur sequenceur automatique. 

1526 sequences differentes d'une taille moyenne de 600 bp ont ete generees, 
qui ont ete organisees entre elles grace au logiciel Polyphredphrap R aboutissant a un 
contig de sequence couvrant l'ensemble du BAC. La sequence ainsi generee avait 

20 une redondance moyenne de 5,5 equivalents genomiques. Les rares (n=5) 
intervalles de sequence non represents dans la banque de clones ml3 ont ete 
combles en generant des amorces de PCR specifiques, de part et d'autre de ces 
intervalles, et en analysant le produit de PCR derive de l'ADN genomique d'un sujet 
sain. 

25 Des homologies de sequence avec des sequences disponibles dans les bases 

de donnees gen&iques publiques (Genbank) ont ete recherchees. Aucun gene connu 
n'a pu etre identifie dans cet intervalle de 163 kb. Plusieurs EST ont ete positionnes 
suggerant que des genes inconnus etaient contenus dans cette sequence. Ces EST 
issus des bases de donnees g6netiques publiques (Genbank, GDB, Unigene, dbEST) 

30 portaient les references suivantes : AI167910, AJ01172O, Rn24957, Mm30219, 
hsl32289, AA236306, hs87296 3 AA055131, hsl51708 7 AA417809, AA417810, 
hs61309, hsl 16424, HUMGS01037, AA835524, hsl05242, SHGC17274, 
hsl46128, hs!22983, hs87280 et hsl35201. La recherche d'exons putatifs a Paide 
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du programme informatique GRAIL a permis d'identifler piusieurs exons poteatieis, 
sites de polyadenylation et sequences promotrices. 

Exemple 4 : etudes de desequilibre de transmission 
5 12 marqueurs de polymorphisme bialleliques (SNP) ont ete identifies dans 

une region s'etendant sur environ 250 kb et centree sur !e BAC hb87bl0. Ces 
polymorphismes ont ete generes par analyse de la sequence d'une dizaine de 
malades independants atteints de MC. Le sequenfage a ete le plus souvent realise au 
niveau dEST connus et positionnes sur le BAC ou a son voisinage. Des exons 
10 putatifs, predits par le programme informatique GRAIL ont aussi ete analyses. Les 
caracteristiques des marqueurs polymorphes ainsi identifies sont rapportees sur le 
tableau 2. 

Tableau 2. Caracteristiques de marqueurs de polymorphisme bialleliques etudjes 
15 dans la region de IBP I 



I 


II 


III 


IV 


V 


VI 


1 


KIAA0849ex9 


PCR-AS 




SEQ ID N° 88 a 90 


116 


2 


hb27GHF 


PCR-RFLP 


Bsrl 


SEQIBN 0 86, 87 


185 
116 
69 


3 


Ctg22Exl 


PCR-RFLP 


Rsal 


SEQ ID N° 84, 85 


381 
313 
69 


4 


SNP1 


PCR-AS 




SEQ ID N° 81 a 83 


410 


5 


ctg2931-3ac/ola 


LO 




SEQ ID N° 78 a 80 


51 
49 


6 


ctg2931-5ag/ola 


LO 




SEQ ID N° 75 a 77 


44 
42 


7 


SNP3-2931 


PCR-AS 




SEQ ID N° 72 a 74 


245 


8 


Ctg25Exl 


PCR-RFLP 


BsteTl 


SEQ ID N° 70,71 


207 
122 
85 
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9 


CTG35 Ex A 


PCR-AS 




SEC) TT) "N" 67 A f>Q 




10 


ctg35 ExC 


PCR-AS 




SEQ TD N° 64 a 66 


198 


11 


D16S3136 






SEQ ID N° 37, 38 




12 


hbl33Dlf 


PCR-RFLP 


Taql 


- SEQ ID N° 62, 63 


369 
295 
74 


13 


D16S3035 






SEQE>N°35, 36 




14 


ADCY7 int7 


PCR-AS 




SEQ IDN° 59 a 61 


140 



PCR-AS : PCR-allele specifique ; LO : Ligature ^oligonucleotides 
Les 12 marqueurs de polymorphisme bialleiiques nouvellement decrits dans 
ce travail sont repertories dans ce tableau. Pour chacun d'eux sont indiques : 
5 - le locus (colonne I) 

- le nom (colonne II) 

- Ia technique de genotypage utilisee (colonne III) 

- F enzyme de restriction eventuellement utilisee (colonne IV) 

- les amorces oligonucleotidiques utilisees pour la reaction de 
1 0 polymerisation en chaine ou pour la ligature (colonne V) 

- la taille des produits attendus lors du typage (colonne VI) 

199 families comportant 1 ou plusieurs malades atteints de MC ont ete 
typees pour ces 12 marqueurs de polymorphisme ainsi que pour les marqueurs 
D16S3035 et D16S3136 localises sur le BAC hb87bl0. Les families comportant des 
5 malades atteints de RCH n'ont pas ete prises en compte. Les methodes de typage 
des polymorphismes etudies ont ete variables en fonction du type de 
polymorphisme faisant appel a : 

- la technique de PCR-RFLP (amplification suivie de digestion 
enzymatique du produit de PCR) quand le polymorphisme etait situe sur 

0 un site de restriction enzymatique. 

- PCR avec amorces specifiques du site polymorphe : amplification 
diflferentielle des deux alleles en utilisant des amorces specifiques de 
chaque allele. 
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- Test de ligation ^oligonucleotides : ligation diflterentielle uLilisant des 
oligonucleotides specifiques de chaque allele, suivie d'electrophorese en 
gel de polyacrylamide. 
Les donnees de typage ont ensuite ete analysees selon un test de desequilibre 
5 de transmission (programme informatique TDT du logiciel GENEHUNTER version 
2). Pour les families comportant plusieurs apparentes atteints, un seul malade a ete 
pris en compte pour 1'analyse. En effet, la prise en compte de plusieurs malades 
apparentes pose Ie probleme de non independance des donnees dans les calculs 
statistiques et peut induire une inflation de la valeur du test. Le malade servant a 
10 1'analyse a ete tire au sort au sein de chaque famille par une procedure automatique 
de randomisation. Compte tenu de cette randomisation, la valeur du test statistique 
obtenu ne representait qu'un seul echantillon possible issu du groupe de families 
etudiees. Afin de ne pas limiter 1'analyse a ce seul echantillon possible et pour 
mieux apprehender la robustesse des resultats obtenus, pour chaque test, une 
1 5 centaine d'echantillons aleatoires ont ainsi ete generes et analyses. 

Les marqueurs ont ete etudies separement puis groupes selon leur ordre sur 
Ie segment chromosomique (KIAA0849ex9 (locus 1), hb27GHF (locus 2), 
Ctg22Exl (locus 3), SNP1 (locus 4), ctg2931-3ac/ola (locus 5), ctg2931-5ag/ola 
(locus 6), SNP3-2931 (locus 7), Ctg25Exl (locus 8), CTG35ExA (locus 9), 
20 ctg35ExC (locus 10), dl6s3136 (locus 11), hb 13 3D If (locus 12), D16S3035 (locus 
13), ADCY7int7 (locus 14)) (tableau 2). Les haplotypes comportant 2, 3 et 4 
marqueurs consecutifs ont ainsi ete analyses en utilisant toujours la meme strategie 
(100 echantillons aleatoires en prenant pour chaque famille un seul individu atteint). 
Pour chaque echantillon test£, il n'a ete pris en compte que les g6notypes (ou 
25 haplotypes) portes par au moins 10 chromosomes parentaux. En moyenne 250 tests 
differents ont ainsi 6t6 realises pour chaque echantillon. II a alors ete possible de 
deduire le nombre de tests attendus positifs pour chaque seuil de signification et de 
comparer cette distribution a la distribution observee. Pour les sujets sains, la 
distribution des tests n'est pas differente de celle attendue selon Ie hasard (x 2 = 2,85, 
30 ddl=4, p=0,58). Pour les sujets malades, au contraire, il existe un exces de tests 
positifs temoignant de l'existence d'un desequilibre de transmission dans la region 
etudiee. 
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Les resultats des tests de desequilibre de transmission pour chaque marqueur 
de polymorphisme pris isolement et pour les haplotypes montrant les plus forts 
desequilibres de transmission ont montre que les marqueurs suivants sont en 
desequilibre de liaison avec la maladie: Ctg22Exl (locus 3), SNP1 (locus 4), 
5 ctg2931-5ag/ola (locus 6), SNP3-2931 (locus 7), Ctg25Exl (locus 8) et ctg35ExC 
(locus 10). Ces marqueurs s'etendent sur une region d'environ 50kb (positions 
74736 a 124285 sur la sequence de hb87b!0). 

Les haplotypes les plus fortement associes avec la maladie de Crohn 
s'etendent eux aussi sur cette region. Ainsi, pour la majorite des echantillons 
10 aleatoires, le test de transmission etait positif (p < 0,01) pour des haplotypes 
combinant les marqueurs suivants : 

- locus 5-6, locus 6-7, locus 7-8, locus 8-9, locus 9-10, Iocusl0-1 1 

- locus 5-6-7, locus 6-7-8, locus 7-8-9, locus 8-9-10, locus 9-10-1 1 

- locus 5-6-7-8; locus 6-7-8-9, locus 7-8-9-10, 

15 L'haplotype de susceptibilite le plus a risque est defini par les locus 7 a 10. U 

s'agit de l'haplotype 1-2-1-2 (tableau 2). 

Les marqueurs testes sont, comme attendu, le plus souvent en desequilibre 
de liaison entre eux. 

Plus recemment, un nouveau test, le Pedigree Disequilibrium Test (PDT), 
20 publie en juillet 2000 (Martin et al., 2000) a ete utilise pour mieux apprehender la 
signification des resultats obtenus avec le programme informatique TDT. Cette 
nouvelle statistique permet en effet d'utiliser Pensemble de I'information disponible 
dans une famille, tant a partir des sujets malades qu'a partir des sujets sains et de 
ponderer P importance de chaque apparente en une statistique globale pour chaque 
25 famille. Les valeurs de p correspondant aux tests PDT et obtenues pour un groupe 
elargi de 235 families avec un ou plusieurs apparentes atteints de la maladie de 
Crohn sont rapportees dans le Tableau 3. Cette nouvelle analyse confirme que la 
region du BAC hb87bl0 est bien associee avec la maladie de Crohn. 
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Tableau 3. Resultat des te s ts PPT realises sur 235 families atteintes de la rnaladie 
de Crohn (NS : non significatif) 



LOCUS 


VALEUR p DU TEST PDT 


KIAA0849ex9 


NS 


hb27gllf 


0,05 


ctg22exl 


0,01 


SNP1 


0,001 


ctg2931-3ac/ola 


NS 


ctg2931-5ag/ola 


0,0001 


SNP3-2931 


0,0001 


ctg25exl 


0,0006 


ctg35exA 


NS 


ctg35exC 


0,00002 


D16S3136 


NS 


hbl33dlf 


NS 


D16S3035 


NS 



Exemple 5 : Identification du gene IBD1 
5 Les groupements d'EST (references Unigene : Hs 135201, Hs87280, 

Hsl22983, Hsl46128, Hsl05242, Hsll6424, Hs61309, Hsl51708, Hs 87296 et 
Hsl 32289) publies et presents sur le BAC hb87M0 ont ete etudies a la recherche 
d'une sequence d'ADN complementaire (ADNc) plus complete. Pour DBDlprox, les 
clones disponibles dans les banques publiques ont ete sequences et les sequences 

10 organisees entre elles. Pour IBD1, une banque d'ADN complementaire de sang 
peripherique (Stratagene human blood cDNA lambda zapexpress ref 938202) a ete 
criblee par les produits de PGR generes a partir des EST connus selon les modalites 
proposees par le fabriquant. La sequence des ADNc ainsi identifies a ensuite servi a 
un nouveau criblage de la banque d'ADNc et ainsi de suite jusqu'a l'obtention de 

1 5 I'ADNc presente. 

L'EST hsl35201 (UniGene) a permis d'identifier un ADNc ne figurant pas 
sur les bases de donnees genetiques disponibles (Genbank) II correspond done a un 
nouveau gene humain. La comparaison de la sequence du cDNA et de 1'ADN 
genomique a montre que ce gene est constitue de 1 1 exons et 10 introns. Un exon 
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supplemental en position 5' par rapport au cDNA identifie est predit par i'anaiyse 
de la sequence avec le logiciel Grail. Ces exons sont tres homologues avec les 
premiers exons du gene CARD4/NOD1. Considerant l'ensemble des exons 
identifies et Texon putatif supplemental, ce nouveau gene apparait avoir une 
5 structure genomique tres proche de celle de CARD4/NODL Par ailleurs, en amont 
du premier exon putatif figure un site d'initiation de la transcription. Pour 
l'ensemble de ces raisons, Pexon putatif a ete considere comme participant a ce 
nouveau gene. L'ADNc reporte en annexe (SEQ ED N° 1) comporte done l'ensemble 
de la sequence identifiee plus la sequence predite par la moderation informatique, 

10 l'ADN complementaire debutant arbitrairement au premier codon ATG de la 
sequence codante predite. Sur cette base, le gene comporterait done 12 exons et 1 1 
introns. La structure intron-exon du gene est rapportee sur la SEQ ID N° 3. 

La sequence proteique deduite de la sequence nucleotidique, comporte 1041 
acides amines (SEQ ID N° 2). Cette sequence n'a pas non plus ete retrouvee sur les 

15 bases de donnees biologiques (Genpept, pir, swissprot). 

Or, plus recemment, I'exon putatif ci-dessus decrit n'a pas pu etre confirme. 
Le gene IBDl ne comporte done efTectivement que 1 1 exons et 10 introns et code 
pour une proteine de 1013 acides amines (e'est-a-dire 28 acides amines de moins 
que determine initialement). 

20 L'etude de la sequence proteique deduite montre que ce gene contient trois 

domaines fonctionnels differents (figure 3) : 

- Un domaine CARD (Caspase Recruitment Domain) connu pour etre 
implique dans Interaction entre proteines regulatrices de Tapoptose et 
de l'activation de la voie NFkappa B. Le domaine CARD permet de 

25 classer cette nouvelle proteine dans la famille des proteines CARD dont 

les membres les plus anciens sont CED 4, APAF1 et RICK. 

- Un domaine NBD (Nucleotide Binding Domaine) comportant un site de 
reconnaissance de l'ATP et un site de liaison du Magnesium. La proteine 
doit done avoir une activite kinase tres probable. 

30 - Un domaine LRR (Leucine Rich Domain) suppose participer a 

Interaction entre proteines par analogie avec d'autres domaines 
prot6iques decrits . 
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Par ailleurs, le domaine LRR de la proteine permet d'aflilier la proteine a 
une famille de proteines impliquees dans la signalisation intracellular et presentes 
tant chez les plantes que chez les animaux. 

La comparaison de ce nouveau gene avec les genes precedemment identifies 
5 et disponibles dans les bases de donnees publiques montre que celui-ci est tres 
homologue avec CARD4/NOD1 (Bertin et al., 1999 ; Inohara et al., 1999). Cette 
homologie porte sur la sequence de l'ADN complementaire, la structure intron-exon 
du gene et la sequence proteique. L'identite de sequence des 2 ADN 
complementaires est de 58%. Une similitude est egalement observee au niveau de la 
10 structure introns-exons. L'homologie de sequence au niveau proteique est de Fordre 
de 40%. 

La similitude entre ce nouveau gene et CARD4/NOD1 suggere que, comme 
CARD4/NOD1, la proteine IBD1 est impliquee dans la regulation de l'apoptose et 
de I'activation de NF-kappa B (Bertin et al., 1999 ; Inohara et al., 1999). La 

15 regulation de l'apoptose cellulaire et I'activation de NF-kappa B sont des voies de 
signalisation intracellular essentielles dans les reactions immunitaires. En effet, 
ces voies de transduction du signal sont les voies effectrices des proteines de la 
famille du recepteur du TNF (Tumor Necrosis Factor) impliquees dans les 
interactions cellule-cellule et la reponse cellulaire aux differents mediateurs de 

20 Tinflammation (cytokines). Le nouveau gene apparait done comme potentiellement 
important a la reaction inflammatoire, de fa?on generate. 

Plusieurs faisceaux de preuves viennent a l'appui de la deregulation de NF- 
kB induit par des bacteries dans la maladie de Crohn. Tout d'abord, la susceptibilite 
a IBD spontanee chez les souris a ete associee a des mutations dans Tlr4, une 

25 molecule connue pour se lier aux LPS par l'intermediaire de son domaine LRR 
(Poltorak et al., 1998 et Sundberg et al., 1994) et pour etre un membre des 
activateurs de la famille de NF-kB. Deuxiemement, la therapie antibiotique cause 
une amelioration provisoire chez les patients atteints de MC accreditant l'hypothese 
que les bacteries enteriques peuvent jouer un role etiologique dans la maladie de 

30 Crohn (McKay, 1999). Troisiemement, NF-kB joue un role pivot dans les maladies 
inflammatoires de Tintestin et est active dans les cellules mononucleees de la 
lamina propria dans la maladie de Crohn (Schreiber et al., 1998). Quatriemement, le 
traitement de la maladie de Crohn est basee sur 1'utilisation de la sulfasalazine et 
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dcs glucocorticoides, tous deux connus comrae etant des inhibiteurs de NF-kfi 
(Auphan et al., 1995 et Wahl et al., 1998) 

Encore plus recemment, iJ a ete montre que le gene candidal EBD1 code 
pour une proline tres similaire a NOD2, un membre de la superfamille 
5 CED4/APAF1 (Ogura et al, 2000). Les sequences nucleotidiques et proteiques de 
IBD1 et NOD2 ne divergent en realite que pour une petite portion toute initiale des 
2 sequences rapportees. Les expressions tissulaires de Nod2 et IBD1 sont de plus 
superposables. Ces deux genes (proteines) peuvent done etre considere(e)s comme 
identiques. II a ete demontre que le domaine LRR de Nod2 a une activite de liaison 

10 pour les lipopolysaccharides bacteriens (LPS) (Inohara et al., 2000) et que sa 
deletion stimule la voie de NFkB. Ce resultat confirme les donnees de Invention. 

L'expression tissulaire de IBD1 a ete ensuite etudiee par la technique du 
Northern Blot. Un transcrit de 4.5 kb est visible dans la plupart des tissus humains. 
La taille du transcrit est conforme avec la taille predite par l'ADNc. Le transcrit de 

15 4.5 kb semble en tres faible abondance dans Fintestin grele et le colon. II est par 
contre tres fortement exprime dans les globules blancs. Ceci est en accord avec des 
donnees cliniques sur les transplantations qui suggerent que la maladie de Crohn est 
potentiellement une maladie liee aux cellules immunitaires circulantes. En effet, la 
transplantation intestinale n'empeche pas la recidive sur le greffon dans la maladie 

20 de Crohn tandis que la transplantation de moelle osseuse semble avoir un effet 
benefique sur revolution de la maladie. 

Certaines donnees font egalement penser a un epissage alternatif, qui 
pourrait s'averer un element important dans la possibility de generer des mutants 
qui pourraient jouer un role dans le developpement de maladies inflammatoires. 

25 Le promoteur du gene IBD1 n'est actuellement pas identifie avec precision. 

II est cependant raisonnable de penser, par analogie avec un tres grand nombre de 
genes que celui-ci reside, au moins pour partie, immediatement en amont du gene, 
dans la portion 5' de celui-ci. Cette region genetique contient des sequences 
transcrites comme en temoigne la presence d'EST (HUMGS01037, AA835524, 

30 hs.105242, SHGC17274, hs.146128, hs.122983, hs.87280). Les clones ATCC 
contenant ces sequences ont ete sequences et analyses dans le laboratoire, 
permettant de mettre en evidence une organisation en exons et en introns avec 
d'eventuels epissages alternatifs. Ces donnees suggerent I'existence d'un autre gene 
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(nomme IBDiprox en raison cie sa proximite dLBDi). La sequence partielie de 
l'ADN complementaire de IBDiprox est rapportee (SEQ ED N° 4) de meme que sa 
structure intron-exon sur la SEQ IDN° 6. 

La traduction des ADNc correspondant a IBDiprox aboutit a une proteine 
5 contenant une homeobox. L'analyse de plusieurs ADNc du gene suggere cependant 
1'existence d'epissages alternatifs. IBDiprox, selon un des epissages alternatifs 
possibles correspond a TEST anonyme HUMGS01037 dont l'ARN est exprime de 
maniere plus importante dans les lignees leucocytaires differenciees que dans les 
lignees non differenciees. 

10 Ainsi, il est possible que ce gene puisse avoir un role dans Pinflammation et 

la differentiation cellulaire. II peut done lui aussi etre considere comme un bon 
candidat pour la susceptibilite aux MICI. L'association entre MC et le 
polymorphisme ctg35 ExC localise sur la sequence codante de IBDiprox renforce 
cette hypothese meme si ce polymorphisme n'entraine pas de variation de sequence 

15 au niveau proteique. 

Enfin, plus recemment, r existence d'une liaison genetique dans les families 
atteintes de la maladie de Crohn et ne comportant pas de mutation du gene IBD1 
suggere elle aussi que IBD1 prox a un role additionnel a IBD1 dans la 
predisposition genetique a la maladie. 

20 La relation fonctionnelle entre IBD1 et IBDiprox n'est actuellement pas 

etablie. Toutefois, la forte proximite entre les deux genes pourrait refleter une 
interaction entre ceux-ci. Dans ce cas, la localisation « tete -beche » de ces genes 
suggere qu'ils puissent avoir des modes de regulation communs ou interdependants. 

25 Exemple 6 : identifications de mutations du gene IBDl dans les maladies 
inflammatoires 

Afin de confirmer le role de IBDl dans les maladies inflammatoires, la 
sequence codante et les jonctions intron-exon du gene ont ete sequencees de l'exon 
2 a l'exon 12 inclus chez 70 sujets independants, a savoir : 50 malades atteints de 
30 MC, 10 malades atteints de RCH, 1 malade atteint de syndrome de Blau et 9 
temoins sains. Les malades etudi^s etaient pour la plupart des formes familiales de 
la maladie et etaient souvent porteurs de l'haplotype de susceptibilite defini par les 
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etudes de descquilibre de transmission. Les iiuioiiis sains elaieiii d'origine 
caucasienne. 

24 variants de sequence ont ainsi pu etre identifies sur ce groupe de 70 
personnes non apparent ees(tableau 3). 
5 La nomenclature des mutations rapportees fait reference a la sequence 

initiale de la proteine comportant 1041 acides amines. La nomenclature plus 
recemment proposee est aisement deduite en retirant 28 acides amines a la sequence 
initiale, et correspond done a une proteine comprenant 1013 acides amines (cf 
exemple 5). 

10 

Tableau 4. Mutations observees dans le gene DBD1 



Exon 


Variant 


Variant 


Maladie de 


Rectocolite 


Temoins 




nucleotidique 


proteique 


Crohn 


hemorragique 


sains 


1 


non teste 










2 


G417A 


silencieux 








2 


C537G 


silencieux 








3 


aucun 










4 


T805C 


S269P 


48/100 


6/20 


3/18 


4 


A869G 


N290S 


0 


0 


1/18 


4 


C905T 


A3 02V 


1/100 


0 


0 


4 


C1283T 


P428L 


1/100 


0 


0 


4 


C1284A 


silencieux 








4 


C1287T 


silencieux 








4 


T1380C 


silencieux 








4 


T1764G 


silencieux 








4 


G1837A 


A613T 


1/100 


0 


0 


4 


C2107T 


R703W 


10/10 


1/20 


1/18 


4 


C2110T 


R704C 


4/10 


1/20 


0 


5 


G2365A 


R792Q 


1/100 


0 


0 


5 


G2370A 


V794M 


0 


1/20 


0 


5 


G2530A 


E844K 


1/10 


0 


0 


6 


A2558G 


N853S 


1/100 


0 


0 


6 


A2590G 


M864V 


1/100 


0 


0 


7 


aucun 










8 


G2725C 


G909R 


7/100 


0 


0 


8 


C2756A 


A919D 


1/100 


0 


0 


9 


G2866A 


V956I 


2/100 


1/20 


3/18 


10 


C2928T 


silencieux 








11 


3022insC 


stop 


20/100 


0 


0 
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12 j aucun " j j j j 

Les mutations autres que silencieuses observees dans chaque exon sont 

rapportees. Elles sont indiquees par la variation de la chame peptidique. Pour 

chaque mutation et pour chaque ph6notype etudie, il est indique le nombre de fois 

ou la mutation est observe, rapport^ au nombre de chromosomes testes. 

5 Aucun variant de sequence fonctionnel n'a 6t6 identifie dans les exons 1 a 3 

(correspondants au domaine CARD de la proteine). Les exons 7 et 12 n'ont pas non 

plus montre de variation de sequence. Certains variants correspondaient a des 

polymorphismes deja identifies et types pour les etudes de desequilibre de 

transmission, a savoir : 

1 0 -Snp3~293 1 : variant nucleotidique T805C, variant proteique S269P 

-ctg2931-5ag/ola : variant nucleotidique T1380C (silencieux) 

-ctg2931-3ac/ola : variant nucleotidique T1764G (silencieux) 

-SNP1 : variant nucleotidique C2107T, variant proteique R703W 

Plusieurs variations de sequence etaient silencieuses (G417A, C537G, 

15 C1284A, C1287T, T1380C, T1764G, C2928T) et n'entrainaient pas de modification 

de la sequence proteique. Elles n'ont pas ete etudiees davantage ici. 

Pour les 16 variations de sequence non silencieuses, il a ete observe des 

variants de sequence proteique chez 43/50 MC contre 5/9 temoins sains et 6/10 

RCH. L'existence d'une ou plusieurs variation(s) de sequence apparaissait associee 

20 au phenotype MC. II existait souvent plusieurs variations de sequence chez un 

meme individu atteint de MC suggerant un effet parfois recessif du gene pour la 

MC. A Tinverse, aucun homozygote ou heterozygote composite n'etait observe 

parmi les patients atteints de RCH ou parmi les temoins sains. 

Certains variants non silencieux etaient presents a la fois chez les malades 

25 atteints de RCH ou de MC et chez les sujets sains. II s'agissait des variants S269P, 

N290S, R703W et V956I situes dans les exons 2, 4 et 9. Un complement 

d'information semble done necessaire avant de retenir un eventuel role fonctionnel a 

ces variants de sequence. 

V956I est une variation de sequence conservative (acides amines 

30 aliphatiques). 

Le variant de sequence S269P correspond a une variation de classe d'acide 
amine (hydroxyle en immunoacide) au debut du domaine liant les nucleotides. II en 
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dcs6quilibre dc transmission avec la MC. I! s'agit en effet du polymorphisme Snp3 
(Cf. supra). 

R703W aboutit a une modification de la classe de Facide amine (aromatique 
au lieu de basique). Cette modification survient dans la region intermediate entre 
5 les domaines NBD et LRR, region conserve entre IBD1 et CARD4/NOD1 . Un role 
fonctionnel peut done etre suspecte pour ce polymorphisme, Cette variation de 
sequence (correspondant au site polymorphe Snpl) est plus souvent transmise au 
malades atteints de MC que ne le veut le hasard (Cf. supra) confirmant que ce 
polymorphisme est associe a la MC. II est possible que la presence de ce mutant 

10 chez les sujets sains temoigne d'une penetrance incomplete de la mutation comme 
cela est attendu pour les maladies genetiques complexes telles que les maladies 
inflammatoires chroniques de l'intestin. 

Le variant R704C, situe immediatement a cote de R703W a pu etre identifie 
a la fois dans la MC et dans la RCH. II correspond lui aussi a une variation non 

15 conservative de la proteine (acide amine soufre au lieu de basique) sur la meme 
region proteique, suggerant un effet fonctionnel aussi important pour R704C que 
pourR703W. 

D'autres variations de sequence sont specifiques de la MC de la RCH ou du 
syndrome de Blau. 

20 Certaines variations de sequence sont au contraire rares, presentes chez un 

ou quelques malades (A613T, R704C, E844K, N853S, M864V, A919D). II s'agit 
toujours de variations entrainant des modifications non conservatives de la proteine 
dans des domaines leucine riches, a des positions importantes au sein de ces 
domaines. Ces differents elements suggerent que ces variations ont un role 

25 fonctionnel. 

Deux variations de sequence (G909R, L1008P*) sont retrouvees chez un 
assez grand nombre de maladies de Crohn (respectivement 7/50 et 16/50) alors 
qu'elles ne sont pas d^tectees chez les temoins ou chez les malades atteints de RCH. 

La delation/insertion d'une guanosine au niveau du codon 1008 aboutit a une 
30 transformation de la troisieme leucine de Thelice alpha du dernier LRR en proline 
suivie d'un codon STOP (L1008P*). Cette variation de sequence entraine done une 
modification importante de la proteine : reduction de taille de la proteine (proteine 
possedant un domaine LRR tronque) et alteration d'un acide amine tres conserve 
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(Leucine). Cette modification de sequence est associee a la MC comme en temoigne 
une etude de desequilibre de transmission dans 16 families porteuses de la mutation 
(P=0,008). 

La mutation G909R survient sur le dernier acide amine du sixieme motif 
5 LRR. II remplace un acide amine aliphatique en acide amine basique. Cette 
variation est potentiellement importante compte tenu du caractere habituellement 
neutre ou polaire des acides amines en position terminale des motifs leucine riche 
(tant pour IBD1 que pour NOD1/CARD4) et du caractere conserve de cet acide 
amine sur les proteines BDl et NOD1/CARD4. 
10 Dans le syndrome de Blau, les malades (n=2) de la famille etudiee etaient 

porteurs d'une variation de sequence specifique (L470F), localisee dans l'exon 4 et 
correspondant au domaine NBD de la proteine. Dans cette serie, ce variant de 
sequence etait specifique du syndrome de Blau. 

Dans la RCH, plusieurs variants de sequence non retrouves chez les sujets 
15 sains ont aussi ete identifies. La proportion de malades porteurs d'une mutation etait 
plus modeste que pour la MC, comme attendu compte tenu de la liaison moins 
fortement etablie entre IBD1 et RCH et du caractere suppose moins genetique de 
cette derniere maladie. Des variations de sequence etaient communes a la MC et a 
la RCH (R703W, R704C). D'autres au contraires apparaissaient specifiques de la 
20 RCH (V794M). Cette observation permet de confirmer que MC et RCH sont des 
maladies partageant au moins en partie la meme predisposition gen6tique. Elle pose 
les bases d'une classification nosologique des MICI. 

L'etude des variants de sequence du gene IBD1 a done permis ^identifier 
plusieurs variants ayant un effet fonctionnel tres probable (ex : proteine tronquee) et 
25 associes a la maladie de Crohn, a la RCH et au syndrome de Blau. 

Le promoteur du gene n'est actuellement pas determine. Selon toute 
vraisemblance cependant, celui-ci est probablement situe dans la region 5' en amont 
du gene. Selon cette hypothese, les variants de sequence observes dans cette region 
peuvent avoir un effet fonctionnel. Ceci pourrait expliquer la tres forte association 
30 entre MC et certains locus polymorphes tels que ctg35 ExC ou Ctg25Exl . 

L' invention fournit ainsi la premiere description de mutations dans la 
famille des genes contenant un domaine CARD chez Thomme. La frequence de ces 
mutations dans des maladies inflammatoires variees montre que le gene IBD1 a un 
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role essentiel dans le processus inflammatoire normal et pathologique. Cette 
invention fournit de nouvelles voies de comprehension et de recherche dans le 
domaine de la physiopathologie des processus inflammatoires normaux et 
pathologiques. Elle permet de ce fait d'envisager le developpement de nouvelles 
5 molecules pharmaceutiques regulant les voies effectrices controiees par EBD1 et 
utiles dans le traitement des maladies inflammatoires et la regulation du processus 
inflammatoire en general. 

Exemple 7 : bases d'un diagnostic biologique de susceptibilite a la maladie de 
10 Crohn 

Plus recemment, 457 patients independants atteints de la maladie de Crohn, 
159 patients independants atteints de rectocolite bemorragique et 103 temoins sains 
ont ete etudies a la recherche de mutations. Ce travail a permis de confirmer les 
mutations precedemment rapportees et d'identifier des mutations supplementaires 

1 5 rapportees sur la figure 4. Les mutations principales ont ensuite ete genotypees dans 
235 families atteintes de la maladie de Crohn. Ce travail plus recent est expose en 
utilisant comme reference la sequence proteique plus courte (1013 acides amines, 
voir exemple 5) mais la nomenclature anterieure des mutations est aisement deduite 
a partir de cette derniere en ajoutant 28 au chiffre indiquant la position des acides 

20 amines. 

Parmi les 5 mutations les plus frequences, la mutation conservative V928I 
(anciennement V956I) n'est pas significativement associee a Tune ou l'autre des 
maladies inflammatoires de Tintestin et ne semble done pas avoir de role important 
dans la maladie. 

25 La mutation S241P (anciennement S269P) est en desequilibre de liaison 

avec les autres mutations principales et ne semble pas jouer par elle-meme un role 
important dans la susceptibilite aux maladies inflammatoires de Pintestin (donnees 
non montr^es). 

A Tinverse, les 3 autres mutations R675W (anciennement R703W), G881R 
30 (anciennement G909R) et 980fs (anciennement L1008P*) sont significativement 
associees a la maladie de Crohn mais pas a la rectocolite hemorragique (cf infra). 
La localisation dans le LRR ou a sa proximite immediate des 3 mutations frequentes 
plaide tres fortement pour un mecanisme fonctionnel impliquant ce domaine 
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proteique, probablement par un defaut de regulation negative de NFkB par !a 
proteine mut6e. Les autres mutations sont plus rares (figure 4). Ces mutations 
cumulees sont presentes chez 17% des sujets atteints de la maladie de Crohn contre 
respectivement 4 % et 5 % les sujets sains ou atteints de rectocolite hemorragique. 
5 Un grand nombre des mutations rares sont aussi local i sees dans le LRR. 

Les etudes intrafamiliales des trois polymorphismes les plus frequents dans 
la maladie de Crohn montrent qu'ils sont tous trois associes a la maladie (tableau 5). 
Comme attendu, pour une mutation supposee tres deletere, le polymorphisme le 
plus fortement associe est la mutation tronquante. Ces trois polymorphismes sont 
10 associes de maniere independante a la maladie de Crohn puisqu'il n'a pas ete 
possible d'identifier sur 235 families des chromosomes porteurs de plus d'une de 
ces trois mutations. Le caractere independant de ces associations renforce 
considerablement l'hypothese que le gene IBD1 est bien implique dans la 
predisposition genetique a la maladie de Crohn. 

15 

Tableau 5 : etude des 3 polymorphismes frequents de IBD1 dans 235 families 
atteintes de la maladie de Crohn 



MUTATION 


VALEUR p DU TEST PDT 


R675W 


0,001 


G881R 


0,003 


980fs 


0,000006 



Les etudes de cas-temoin confiment cette association (tableau 6). lis 
20 montrent que les mutations les plus fr&quentes dans la maladie de Crohn ne sont pas 
frequentes dans la rectocolite hemorragique. 



Tableau 6 ; etude de cas-t^moin des 3 polymorphismes frequents de IBD1 dans les 
maladies inflammatoires de l'intestin 



MUTATION 


NB DE 
CHROMOSOME 
S ETUDIES 


FREQUENCE 
DE 1/ ALLELE A 
RISQUE R675W 


FREQUENCE 
DEL' ALLELE A 
RISQUE G881R 


FREQUENCE 
DE L' ALLELE A 
RISQUE 980fe 


TOTAL 
ALLELES A 
RISQUE 


T^moins sains 


206 


0,04 


0,01 


0,02 


0,07 


Rectocolite H. 


318 


0,03 


0,00 


0,01 


0,05 
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M Crohn 


936 


0,11 


0,06 


0,12 


0,29 



1/ etude de l'effet dose de ces mutations montre que les sujets porteurs d'une 
mutation a l'etat hornozygote ou heterozygote composite presentent un bien plu 
grand risque de developper la maladie que les sujets non porteurs ou heterozygotes 
5 pour ces mutations (tableau 7), 

Tableau 7 : risque relatif et absolu de la maladie de Crohn attribuable en fonction du 
genotype de IBD1 

Dans la population generate, un risque de la maladie de Crohn de 0,001 a ete 
10 pris comme reference et les mutations ont ete supposees en equilibre de Hardy- 
Weinberg. 



DISTRIBUTION 


GENOTYPE 


AUCUN VARIANT 


SIMPLE 
HETEROZYGOTE 


HOMOZYGOTE 


HETEROZYGOTE 
COMPOSITE 


Sains 


88 


15 


0 


0 


Rectocolite H 


145 


13 


1 


0 


M Crohn 


267 


133 


28 


40 


Risque attribuable 
deMC: 
Risque relatif 
Risque absolu 


1 

0,0007 


3 

0,002 


38 
0,03 


44 
0,03 



Les travaux cites ci-dessus confirment les donnees preliminaires anterieures 
et apportent les bases detailtees d'un diagnostic biologique de la maladie de Crohn 
1 5 par r etude des variants de IBD1 . En effet, ce travail : 

1) definit les mutations dont la frequence est superieure a 0,001 dans une 
population caucasienne melangee, 

2) definit la frequence des mutations observees et permet de definir 3 
mutations principals associees a la maladie de Crohn. Ainsi, il est 

20 possible, grace a ce travail, de definir une strategie d' etude du gene pour 

la recherche de variants morbides a savoir : premierement typage des 3 
mutations principals, deuxiemement recherche de mutations dans les 7 
derniers exons, troisiemement recherche d'autres variants de sequence. 
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3) definit les modalitcs pratiques de recherche de ces mutations en 
signalant leur position et leur nature. En effet, il est ensuite aise a 
Phomme du metier de mettre au point des methodes de typage et de 
sequencage selon son expertise personnelle. On peut citer en particulier 

5 la possibility de faire les genotypages des 3 mutations principales par 

PCR suivie de digestion enzymatique et electrophoreses etude des profils 
de migration par dHPLC, DGGE ou SSCP, oligoligation, 
microsequen9age, etc. 

4) demontre Pindependance des mutations les plus frequentes qui ne sont 
1 0 pas observees sur le meme chromosome dans cette population etendue et 

variee. Cette information permet de classer de fafon fiable les sujets en 
heterozygotes composites (ayant deux mutations) comme porteur a une 
double dose de variations intrageniques. 

5) demontre que la plus grande proportion des mutations n'entraine qu'un 
15 effet nul ou minime sur le risque de rectocolite hemorragique. Ce 

resultat permet d'envisager d'aider le clinicien dans le diagnostic 
differentiel entre ces deux maladies. En effet, dans environ 10 % des cas, 
les maladies inflammatoires de 1'intestin restent inclassees malgre les 
examens biologiques, radiologiques et endoscopiques. 
20 6) definit un risque relatif et absolu de la maladie pour les genotypes les 

plus frequents. Ce resultat pose les bases d'un diagnostic predictif 
potentiellement utile dans une demarche de suivi ou d' intervention 
preventive dans les populations a risque, en particulier, les apparentes de 
malades. 

25 7) demontre Texistence d'un effet dose pour le gene IBD1 et confirme le 

caractere en partie recessif de la predisposition genetique a la maladie de 
Crohn. II permet done de poser les bases d'un conseil genetique et d'un 
diagnostic pr6clinique intrafamilial. 
Notons enfin qu'une mutation supplemental du domaine NBD a ete isolee 
30 dans une deuxieme famille porteuse d'un syndrome de Blau. La rarete des deux 
evenements dans 2 families differentes suffit a confirmer Timplication de ce gene 
dans le syndrome de Blau et dans les maladies granulomateuses en generale. 
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L'ensemble de ces donnees apporte un outii diagnostique directement 
applicable et utile au praticien dans sa pratique quotidienne. 

******* 

5 

Le gene IBDlprox, situe dans la region promotrice de IBD1, et dont la 
sequence partielle est devoilee dans la presente invention, peut lui aussi avoir un 
role important dans la regulation de Tapoptose cellulaire et du processus 
inflammatoire, comme suggere par son expression differentielle dans les cellules 

1 0 matures du systeme immunitaire. La forte association rapportee dans ce travail entre 
le marqueur de polymorphisme ctg35ExC (situe dans la region transcrite du gene) et 
!a maladie de Crohn, plaide aussi tres fortement en faveur de cette hypothese. 

Les maladies inflammatoires de l'intestin sont des maladies genetiques 
complexes pour lesquelles, a ce jour, aucun gene de susceptibilite n'avait ete 

1 5 identifie avec certitude. L'invention a permis de V identification du premier gene de 
susceptibilite a la maladie de Crohn, par une demarche de clonage positionnel (ou 
genetique reverse). II s'agit la de la premiere localisation genetique obtenue par une 
telle approche pour une maladie genetique complexe, ce qui demontre son utilite et 
sa faisabilite, au moins dans certains cas dans les maladies genetiques complexes. 

20 La presente invention concerne aussi un acide nucleique purifie ou isole 

caracterise en ce qu'il code pour un polypeptide possedant un fragment continu d'au 
moins 200 acides amines d'une proteine choisie parmi SEQ ID N° 2 et SEQ ID N° 
5. 
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Revindications 



1. Acide nucleique purifie ou isole, caracterise en ce qu'il comprend une 
sequence nucleique choisie dans le groupe de sequences suivantes : 
5 a) SEQ ID N° 1, SEQ ID N° 3, SEQ ID N° 4 et SEQ ID N° 6 ; 

b) la sequence d'un fragment d'au moins 15 nucleotides consecutifs 
d'une sequence choisie parmi SEQ ID N° 1, SEQ ID N° 3, SEQ 
IDN°4ou SEQ ID N° 6 ; 

c) une sequence nucleique presentant un pourcentage d'identite 
10 d'au moins 80 %, apres alignement optimal avec une sequence 

definie en a) ou b) ; 

d) une sequence nucleique s'hybridant dans des conditions de forte 
stringence avec une sequence nucleique definie en a) ou b) ; 

e) la sequence complementaire ou la sequence d'ARN 
1 5 correspondant a une sequence telle que definie en a), b), c) ou d). 



2. Acide nucleique purifie ou isole selon la revendication 1, caracterise en 
ce qu'il comprend ou est constitue d'une sequence choisie parmi SEQ ID N° 1 et 
SEQ ID N° 4, la sequence complementaire ou la sequence d'ARN correspondant a 
20 une de ces sequences. 



25 



3. Acide nucleique purifie ou isole caracterise en ce qu'il code pour un 
polypeptide possedant un fragment continu d'au moins 200 acides amines d'une 
proteine choisie parmi SEQ ID N° 2 et SEQ ID N° 5. 



4. Polypeptide isole caracterise en ce qu'il comprend un polypeptide choisi 

parmi : 

a) un polypeptide correspondant a SEQ ID N° 2 ou SEQ ID N° 5 ; 

b) un polypeptide variant d'un polypeptide de sequence definie en 
30 a); 

c) un polypeptide homologue a un polypeptide defini en a) ou b), 
comportant au moins 80 % d'homologie avec ledit polypeptide 
de a); 
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d) un fragment d'au moin$ 15 acides amines consecutifs d'un 
polypeptide defini en a), b) ou c) ; 

e) un fragment biologiquement actif d'un polypeptide defini en a), 
b) ou c). 

5 

5. Polypeptide selon la revendication 4, caracterise en ce qu'il est constitue 
d J une sequence choisie parmi SEQ ID N° 2, SEQ ED N° 5 ou une sequence 
possedant au moins 80 % d'homologie avec Tune de ces sequences apres 
alignement optimal. 

10 

6. Vecteur de clonage et/ou d' expression comprenant un acide nuclei que 
selon Tune des revendications 1 a 3 ou codant pour un polypeptide selon Tune des 
revendications 4 et 5. 

15 7. Cellule hote caracterisee en ce qu'elle est transformee par un vecteur 

selon la revendication 6. 

8. Animal, excepte Thomme, caracterise en ce qu'il comprend une cellule 
selon la revendication 7. 

20 

9. Utilisation d'une sequence d'acide nucleique selon Tune des 
revendications 1 a 3 en tant que sonde ou amorce, pour la detection et/ou 
Tamplification de sequences d'acide nucleique. 

25 10. Utilisation in vitro d'un acide nucleique selon Tune des revendications 1 

a 3 comme oligonucleotide sens ou antisens. 

1 1. Utilisation d'une sequence d'acide nucleique selon 1'une des 
revendications 1 a 3 pour la production d'un polypeptide recombinant. 

30 

12. Procede d'obtention d'un polypeptide recombinant caracterise en ce que 
Ton cultive une cellule selon la revendication 7 dans des conditions permettant 
l'expression dudit polypeptide et que Ton recupere ledit polypeptide recombinant. 
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13. Polypeptide recombinant caracterise en ce qu'il est obtenu par un 
procede selon la revendication 12. 

5 14. Anticorps monoclonal ou polyclonal caracterise en oe qu'il lie 

selectivement un polypeptide selon Tune des revendications 4, 5 ou 13. 

15. Procede de detection d'un polypeptide selon Tune des revendications 4, 
5 ou 13, caracterise en ce qu'il comprend les etapes suivantes : 

10 a) mise en contact d'un echantillon biologique avec un anticorps 

selon la revendication 14 ; 
b) mise en evidence du complexe antigene-anticorps forme. 

16. Trousse de reactifs pour la mise en oeuvre d'un procede selon la 
1 5 revendication 1 5, caracterisee en ce qu'elle comprend : 

a) un anticorps monoclonal ou polyclonal selon la revendication 
14; 

b) eventuellement des reactifs pour la constitution d'un milieu 
propice a la reaction immunologique ; 

20 c) les reactifs permettant la detection du complexe antigene- 

anticorps produit lors de la reaction immunologique. 

17. Methode de diagnostic et/ou d 'evaluation pronostique d'une maladie 
inflammatoire et/ou immune ou d'un cancer caracterisee en ce qu'on determine a 

25 partir d'un prelevernent biologique d'un patient la presence d'au moins une 
mutation. et/ou une alteration d' expression du gene correspondant a SEQ ID N° 1, 
SEQ ID N° 3, SEQ ID N° 4 ou SEQ ID N° 6 par l'analyse de tout ou partie d'une 
sequence nucleique correspondant audit gene. 

30 18. Puce a ADN caracterisee en ce qu'elle contient une sequence nucleique 

selon Tune des revendications 1 a 3. 
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19. Puce a proteines caracterisee en ce qu'elle contient un polypeptide selon 
l'une des revendications 4, 5 ou 13, ou un anticorps selon la revendication 14. 

20. Procede de detection et/ou de dosage d'un acide nucleique selon Tune 
des revendications 1 a 3 dans un echantillon biologique, caracterise en ce qu'il 
comprend Ies etapes suivantes : 

a) mise en contact d'un polynucleotide selon Tune des 
revendications 1 a 3, marque ; 

b) detection et/ou dosage de l'hybride forme entre ledit 
polynucleotide et P acide nucleique de I 'echantillon biologique. 

21. Procede de detection et/ou de dosage d'un acide nucleique selon Tune 
des revendications 1 a 3 dans un echantillon biologique, caracterise en ce qu'il 
comprend une etape d'amplification des acides nucleiques dudit echantillon 
biologique a l'aide d'amorces choisies parmi les acides nucleiques selon Tune des 
revendications 1 a 2. 

22. Procede de criblage de composes capables de se fixer a un polypeptide 
de sequence SEQ ID N° 2 ou SEQ ID N° 5, caracterise en ce qu'il comprend les 
etapes de mise en contact d'un polypeptide selon Tune des revendications 4, 5 ou 
13, d'une cellule selon la revendication 7, ou d'un mammifere selon la 
revendication 8, avec un compose candidat et de detection de la formation d'un 
complexe entre ledit compose candidat et ledit polypeptide. 

23. Procede de criblage de composes capables d'interagir in vitro ou hi vivo 
avec un acide nucleique selon Tune des revendications 1 a 3, caracterise en ce qu'il 
comprend les etapes de mise en contact d'un acide nucleique selon l'une des 
revendications 1 a 3, d'une cellule selon la revendication 7, ou d'un mammifere 
selon la revendication 8, avec un compose candidat et de detection de la formation 
d'un complexe entre ledit compose candidat et ledit acide nucleique 

24. Compose caracterise en ce qu'il est choisi parmi 

a) un acide nucleique selon l'une des revendications 1 a 3 ; 
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b) un polypeptide selon l'une des revindications 4, 5 ou 13 ; 

c) un vecteur selon la revendication 6 ; 

d) une cellule selon la revendication 7 ; et 

e) un anti corps selon la revendication 14 ; 
5 a titre de medicament. 

25. Compose selon la revendication 24, pour la prevention et/ou le 
traitement d'une maladie inflammatoire et/ou immune ou d'un cancer associe a la 
presence d'au moins une mutation du gene correspondant a SEQ ID N° 1 ou SEQ 
10 IDNM. 
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Genes impliques dans les maladies inf lammatoires de 
l'intestin et leur utilisation 



<110> Fondation Jean Dausset - CEPH 
<120> 



<130> D18702 
<160> 90 

<170> Patentln Ver. 2.1 

<210> 1 
<211> 4322 
<212> ADN 

<213> Homo sapiens 

<220> 

<221> CDS 

<222> (1) . . (3123) 

<400> 1 

atg gag aag aga agg ggt eta acc att 
Met Glu Lys Arg Arg Gly Leu Thr lie 
1 5 

ccc tea ctg acc ttg ttc tec tec cca 
Pro Ser Leu Thr Leu Phe Ser Ser Pro 
20 25 

gag get ttt cag gca cag agg age cag 
Glu Ala Phe Gin Ala Gin Arg Ser Gin 
35 40 

ggg tec ctg gaa ggc ttc gag agt gtc 
Gly Ser Leu Glu Gly Phe Glu Ser Val 
50 55 

gag gtc etc tec tgg gag gac tac gag 
Glu Val Leu Ser Trp Glu Asp Tyr Glu 
65 70 

cct etc tec cac ttg gee agg cgc ctt 
Pro Leu Ser His Leu Ala Arg Arg Leu 
85 



gag tgc tgg ggc ccc caa agt 48 
Glu Cys Trp Gly Pro Gin Ser 
10 15 

ggt tgt gaa atg tgc teg cag 96 
Gly Cys Glu Met Cys Ser Gin 
30 

ctg gtc gag ctg ctg gtc tea 144 
Leu Val Glu Leu Leu Val Ser 
45 

ctg gac tgg ctg ctg tec tgg 192 
Leu Asp Trp Leu Leu Ser Trp 
60 

ggc ttc cac etc ctg ggc cag 240 
Gly Phe His Leu Leu Gly Gin 
75 80 

ctg gac ace gtc tgg aat aag 288 
Leu Asp Thr Val Trp Asn Lys 
90. 95 



ggt act tgg gee tgt cag aag etc ate gcg get gee caa gaa gec cag 336 
Gly Thr Trp Ala Cys. Gin Lys Leu lie Ala Ala Ala Gin Glu Ala Gin 
100 105 HO 

gee gac age *cag tec ccc aag ctg cat ggc tgc tgg gac ccc cac teg 384 
Ala Asp Ser Gin Ser Pro Lys Leu His Gly Cys Trp Asp Pro His Ser 
115 120 " * 125 

etc cac cca gee cga gac ctg cag agt cac egg cca- gee att gtc agg 432 
Leu His Pro Ala Arg Asp Leu Gin Ser His Arg Pro Ala lie Val Arg 
130 135 140 

agg etc cac age cat .gtg gag aac atg ctg gac ctg gca tgg gag egg 480 
Arg Leu His Ser His Val Glu Asn Met Leu Asp Leu Ala Trp Glu Arg 
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145 150 155 160 

ggt ttc gtc age cag tat gaa tgt gat gaa ate agg ttg ccg ate ttc 528 

Gly Phe Val Ser Gin Tyr Glu Cys Asp Glu He Arg Leu Pro He Phe 
165 1"?0 175 

aca ccg tec cag agg gca aga agg ctg ctt gat ctt gec acg gtg aaa 576 

Thr Pro Ser Gin Arg Ala Arg Arg Leu Leu Asp Leu Ala Thr Val Lys 
180 185 190 

gcg aat gga ttg get gee ttc ctt eta caa cat gtt cag gaa tta cca 624 

Ala Asn Gly Leu Ala Ala Phe Leu Leu Gin His Val Gin Glu Leu Pro 
195 200 205 

gtc cca ttg gee ctg cct ttg gaa get gee aca tgc aag aag tat atg 672 

Val Pro Leu Ala Leu Pro Leu Glu Ala Ala Thr Cys Lys Lys Tyr Met 
210' 215 220 

gee aag ctg agg ace acg gtg tct get cag tct cgc ttc etc agt acc 720 

Ala Lys Leu Arg Thr Thr Val Ser Ala Gin Ser Arg Phe Leu Ser Thr 
225 230 235 240 

tat gat gga gca gag acg etc tgc ctg gag gac ata tac aca gag aat 768 

Tyr Asp Gly Ala Glu Thr Leu Cys Leu Glu Asp He Tyr Thr Glu Asn 
245 250 255 

gtc ctg gag gtc tgg gca gat gtg ggc atg get gga tec ccg cag aag 816 

Val Leu Glu Val Trp Ala Asp Val Gly Met Ala Gly Ser Pro Gin Lys 
260 265 270 

age cca gee acc ctg ggc ctg gag gag etc ttc age acc cct ggc cac 864 

Ser Pro Ala Thr Leu Gly Leu Glu Glu Leu Phe Ser Thr Pro Gly His 
275 280 285 

etc aat gac gat gcg gac act gtg ctg gtg gtg ggt gag gcg ggc agt 912 

Leu Asn Asp Asp Ala Asp Thr Val Leu Val Val Gly Glu Ala Gly Ser 
290 295 300 

ggc aag age acg etc ctg cag egg ctg cac ttg ctg tgg get gca ggg 960 
Gly Lys Ser Thr Leu Leu Gin Arg Leu His Leu Leu Trp Ala Ala Gly 
305 310 315 320 

caa gac ttc cag gaa ttt etc ttt gtc ttc cca ttc age tgc egg cag 1008 

Gin Asp Phe Gin Glu Phe Leu Phe Val Phe Pro Phe Ser Cys Arg Gin 
325 330 " 335 

ctg cag tgc atg gee aaa cca etc tct gtg egg act eta etc ttt gag 1056 

Leu Gin Cys Met Ala Lys Pro Leu Ser Val Arg Thr Leu Leu Phe Glu 
340 345 350 

cac tgc tgt tgg cct gat gtt ggt caa gaa gac ate ttc cag tta etc 1104 

His Cys Cys Trp Pro Asp Val Gly Gin Glu Asp lie Phe- Gin Leu Leu 
355 360 365 

ctt gac cac cct gac cgt gtc ctg tta acc ttt gat ggc ttt- gac gag 1152 • 

Leu Asp His Pro Asp. Arg Val Leu Leu Thr Phe Asp -Gly Phe Asp Glu 
370 375 380 

ttc aag ttc agg ttc. acg gat cgt gaa cgc cac tgc tec ccg acc gac 1200 

Phe Lys Phe Arg Phe Thr Asp Arg Glu Arg His- Cys Ser Pro Thr Asp 
.385 390 395 40-0 
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ccc acc tct gtc cag acc ctg etc ttc aac ctt ctg cag ggc aac ctg 1248 
Pro Thr Ser Val Gin Thr Leu Leu Phe Asn Leu Leu Gin Gly Asn Leu 
405 410 415 

ctg aag aat gec cgc aag gtg gtg acc age cgt ccg gec get gtg teg 1296 
Leu Lys Asn Ala Arg Lys Val Val Thr Ser Arg Pro Ala Ala Val Ser 
420 425 430 

gcg ttc etc agg aag tac ate cgc acc gag ttc aac etc aag ggc ttc 1344 
Ala Phe Leu Arg Lys Tyr lie Arg Thr Glu Phe Asn Leu Lys Gly Phe 
435 440 445 

tct gaa cag ggc ate gag ctg tac ctg agg aag cgt cat cat gag ccc 1392 
Ser Glu Gin Gly lie Glu Leu Tyr Leu Arq Lys Arg His His Glu Pro 
450 455 460 

ggg gtg gcg gac cgc etc ate cgc ctg etc caa gag acc tea gec ctg 1440 
Gly Val Ala Asp Arg Leu lie Arg Leu Leu Gin Glu Thr Ser Ala Leu 
465 470 475 480 

cac ggt ttg tgc cac ctg cct gtc ttc tea tgg atg gtg tec aaa tgc 1488 
His Gly Leu Cys His Leu Pro Val Phe Ser Trp Met Val Ser Lys Cys 
485 490 495 

cac cag gaa ctg ttg ctg cag gag ggg ggg tec cca aag acc act aca 1536 
His Gin Glu Leu Leu Leu Gin Glu Gly Gly Ser Pro Lys Thr Thr Thr 
500 505 510 

gat atg tac ctg ctg att ctg cag cat ttt ctg ctg cat gee acc ccc 1584 
Asp Met Tyr Leu Leu lie Leu Gin His Phe Leu Leu His Ala Thr Pro 
515 520 525 

cca gac tea get tec caa ggt ctg gga ccc agt ctt ctt egg ggc cgc 1632 
Pro Asp Ser Ala Ser Gin Gly Leu Gly Pro Ser Leu Leu Arg Gly Arg 
530 535 540 

etc ccc acc etc ctg cac ctg ggc aga ctg get ctg tgg ggc ctg ggc 1680 
Leu Pro Thr Leu Leu His Leu Gly Arg Leu Ala Leu Trp Gly Leu Gly 
550 555 " * 560 

atg tgc tgc tac gtg ttc tea gec cag cag etc cag gca gca cag gtc 1728 
Met Cys Cys Tyr Val Phe Ser Ala Gin Gin Leu Gin Ala Ala Gin Val 
565 570 575 ' 

age cct gat gac att tct ctt ggc ttc ctg gtg cgt gec aaa ggt gtc 1776 
Ser Pro Asp Asp He Ser Leu Gly Phe Leu Val Arg Ala Lys Gly Val 
580 585 ' 590 



gtg cca ggg agt acg gcg .ccc ctg gaa ttc ctt cac ate act ttc cag 
Val Pro Gly Ser Thr Ala " Pro Leu Glu Phe Leu His He Thr Phe Gin 
595 600 605 



1824 



tgc ttc ttt gec gcg ttc tac ctg gca etc agt get gat gtg cca cca 1872 

Cys Phe Phe Ala Ala Phe Tyr Leu Ala Leu Ser Ala Asp Val Pro Pro 

610 615 620 

get ttg etc aga cac etc ttc aat tgt ggc agg cca ggc aac tea cca 1920 

Ala Leu Leu Arg' His .Leu Phe Asn Cys Gly Arg Pro Gly Asn Ser Pro 

62 $ 630 635 ' 640 
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atg gcc agg etc ctg ccc acg atg tgc ate cag gee teg gag gga aag 1968 

Met Ala Arg Leu Leu Pro Thr Met Cys lie Gin Ala Ser Glu Gly Lys 

645 650 655 

gac age age gtq gca get ttg ctg cag aag gcc gag ccg cac aac ctt 2016 
Asp Ser Ser Val Ala Ala Leu Leu Gin Lys Ala Glu Pro His Asn Leu 
660 665 670 

cag ate aca gca gcc ttc ctg gca ggg ctg ttg tec egg gag cac tgg 2064 
Gin He Thr Ala Ala Phe Leu Ala Gly Leu Leu Ser Arg Glu His Trp 
675 680 685 

ggc ctg ctg get gag tgc cag aca tct gag aag gcc ctg etc egg cgc 2112 
Gly Leu Leu Ala Glu Cys Gin Thr Ser Glu Lys Ala Leu Leu Arg Arg 
690 695 700 

cag gcc tgt gcc cgc tgg tgt ctg gcc cgc age etc cgc aag cac ttc 2160 
Gin Ala Cys Ala Arg Trp Cys Leu Ala Arg Ser Leu Arg Lys His Phe 
705 710 715 " 720 

cac tec ate ccg cca get gca ccg ggt gag gcc aag age gtg cat gcc 2208 
His Ser lie Pro Pro Ala Ala Pro Gly Glu Ala Lys Ser Val His Ala 
725 730 " 735 

atg ccc ggg ttc ate tgg etc ate egg age ctg tac gag atg cag gag 2256 
Met Pro Gly Phe He Trp Leu He Arg Ser Leu Tyr Glu Met Gin Glu 
740 745 750 

gag egg ctg get egg aag get gca cgt ggc ctg aat gtt ggg cac etc 2304 
Glu Arg Leu Ala Arg Lys Ala Ala Arg Gly Leu Asn Val Gly His Leu 
755 760 765 

aag ttg aca ttt tgc agt gtg ggc ccc act gag tgt get gcc ctg gcc 2352 
Lys Leu Thr Phe Cys Ser Val Gly Pro Thr Glu Cys Ala Ala Leu Ala 
770 775 780 

ttt gtg ctg cag cac ctt egg egg ccc gtg gcc ctg cag ctg gac tac 2400 
Phe Val Leu Gin His Leu Arg Arg Pro Val Ala Leu Gin Leu Asp Tyr 
785 790 795 800 

aac tct gtg ggt gac att ggc gtg gag cag ctg ctg cct tgc ctt ggt 2448 
Asn Ser Val Gly Asp He Gly Val Glu Gin Leu Leu Pro Cys Leu Gly 
805 810 815 

gtc tgc aag get ctg tat ttg cgc gat aac aat ate tea gac cga ggc 2496 
Val Cys Lys Ala Leu Tyr Leu Arg Asp Asn Asn He Ser Asp .Arg Gly 
820 825 830 

ate tgc aag etc att gaa tgt get ctt cac tgc gag caa ttg cag aag 2544 
He Cys Lys Leu He Glu Cys Ala Leu His Cys Glu Gin Leu Gin Lys 
835 840 845 

tta get eta ttc aac aac aaa ttg act gac ggc tgt gca cac tec atg 2592 
Leu Ala Leu Phe Asn Asn Lys Leu Thr Asp Gly Cys Ala His Ser Met 
850 m 855 • 860 

get aag etc ctt gca tgc agg cag aac ttc ttg gca ttg agg ctg ggg 2640 
Ala Lys Leu Leu. Ala Cys Arg Gin Asn Phe Leu Ala Leu Arg Leu Gly 
865 870 875 880 

aat aac tac ate act gcc gcg gga gcc caa gtg ctg gcc gag ggg etc 2688 
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Asn Asn Tyr lie Thr Ala Ala Gly Ala Gin Val Leu Ala Glu Gly Leu 
885 890 895 



cga ggc aac acc tec ttg cag ttc ctg gga ttc tgg ggc aac aga gtg 2736 
Arg Gly Asn Thr Ser Leu Gin Phe Leu Gly Phe Trp Gly Asn Ary Val 
900 905 910 

ggt gac gag ggg gec cag gec ctg get gaa gec ttg ggt gat cac cag 2784 
Gly Asp Glu Gly Ala Gin Ala Leu Ala Glu Ala Leu Gly Asp His Gin 
915 920 925 

age ttg agg tgg etc age ctg gtg ggg aac aac att ggc agt gtg ggt 2832 
Ser Leu Arg Trp Leu Ser Leu Val Gly Asn Asn lie Gly Ser Val Gly 
930 935 940 

gec caa gec ttg gca ctg atg ctg gca aag aac gtc atg eta gaa gaa 2880 
Ala Gin Ala Leu Ala Leu Met Leu Ala Lys Asn Val Met Leu Glu Glu 
945 950 955 960 

etc tgc ctg gag gag aac cat etc cag gat gaa ggt gta tgt tct etc 2928 
Leu Cys Leu Glu Glu Asn His Leu Gin Asp Glu Gly Val Cys Ser Leu 
965 970 975 

gca gaa gga ctg aag aaa aat tea agt ttg aaa ate ctg aag ttg tec 2976 
Ala Glu Gly Leu Lys Lys Asn Ser Ser Leu Lys lie Leu Lys Leu Ser 
980 985 990 

aat aac tgc ate acc tac eta ggg gca gaa gec etc ctg cag gec ctt 3024 
Asn Asn Cys lie Thr Tyr Leu Gly Ala Glu Ala Leu Leu Gin Ala Leu 
995 1000 1005 

gaa agg aat gac acc ate ctg gaa gtc tgg etc cga ggg aac act ttc 3072 
Glu Arg Asn Asp Thr He Leu Glu Val Trp Leu Arg Gly Asn Thr Phe 
1010 1015 1020 

tct eta gag gag gtt gac aag etc ggc tgc agg gac acc aga etc ttg 3120 
Ser Leu Glu Glu Val Asp Lys Leu Gly Cys Arg Asp Thr Arg Leu Leu 
1025 1030 1035 ~ 1040 

ctt tgaagtctcc gggaggatgt tegtctcagt .ttgtttgtga caggctgtga 3173 
Leu 



gtttgggccc 


cagaggctgg 


gtgacatgtg 


ttggcagcct 


cttcaaaatg 


agccctgtcc 


3233 


tgectaagge tgaacttgtt 


ttctgggaac 


accataggtc 


acctttattc 


tggcagagga 


3293 


gggagcatca 


gtgccctcca 


ggatagactt 


ttcccaagcc 


tacttttgee 


attgacttct 


3353 


tcccaagatt 


caatcccagg 


atgtacaagg 


acagcccccc 


tccatagtat 


gggactggcc 


3413 


tetgetgate 


ctcccaggct 


tccgtgtggg 


tcagtggggc 


ccatggatgt 


gcttgttaac 


3473 


tgagtgcctt 


ttggtggaga 


ggcccggccc 


acataattca 


ggaagcagct 


ttccccatgt 


3533 


ctcgactcat 


ccatccaggc 


cattcccqgt 


ctctggttc'c 


tcccctcctc 


ctggactcct 


3593 


gcacacgctc 


cttcctctga 


ggctgaaatt 


cagaatatta 


gtgacctcag 


ctttgatatt 


3653 


tcacttacag 


cacccccaac 


cctggca'ccc 


agggtgggaa 


gggctacacc 


ttagcctgcc 


3713 


ctcctttccg gtgtttaaga 


catttttgga 


aggggacacg 


tgacagccgt 


ttgttcccca 


3773 
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agacattcta ggtttgcaag aaaaatatga ccacactcca gccgggatca catgtggact 3833 
tttatttcca gtgaaatcag ttactcttca gttaagcctt tggaaacagc tcgactttaa 3893 
aaagctccaa atgcagcttt aaaaaattaa tctgggccag aatttcaaac ggcctcacta 3953 
ggcttctggt tgatgcctgt gaactgaact ctgacaacag acttctgaaa tagacccaca 4013 
agaggcagtt ccatttcatt tgtgccagaa tgctttagga tgtacagtta tggattgaaa 4073 
gtttacagga aaaaaaatta ggccgttcct tcaaagcaaa tgtcttcctg gattattcaa 4133 
aatgatgtat gttgaagcct ttgtaaattg tcagatgctg tgcaaatgtt attattttaa 4193 
acattatgat gtgtgaaaac tggttaatat ttataggtca ctttgtttta ctgtcttaag 4253 
tttatactct tatagacaac atggccgtga actttatgct gtaaataatc agaggggaat 4313 
aaactgttg ^ 

<210> 2 
<211> 1041 
<212> PRT 

<213> Homo sapiens 
<400> 2 

Met Glu Lys Arg Arg Gly Leu Thr lie Glu Cys Trp Gly Pro Gin Ser 
1 5 10 15 

Pro Ser Leu Thr Leu Phe Ser Ser Pro Gly Cys Glu Met Cys Ser Gin 
20 25 30 

Glu Ala Phe Gin Ala Gin Arg Ser Gin Leu Val Glu Leu Leu Val Ser 
35 4 o 45 

Gly Ser Leu Glu Gly Phe Glu Ser Val Leu Asp Trp Leu Leu Ser Trp 
50 55 60 

Glu Val Leu Ser Trp Glu Asp Tyr Glu Gly Phe His Leu Leu Gly Gin 
65 70 75 80 

■ Pro Leu Ser His Leu Ala Arg Arg Leu Leu Asp Thr Val Trp Asn Lvs 
85 go 95 

Gly Thr Trp Ala Cys Gin Lys Leu lie Ala Ala Ala Gin Glu Ala Gin 
100 105 110 

Ala Asp Ser Gin Ser Pro Lys.Leu His Gly Cys Trp Asp Pro His Ser 
H5 120 125 

Leu His Pro Ala Arg Asp Leu Gin Ser His Arg Pro Ala He Val Arg 
130 135 14Q 

Arg Leu His Ser His Val Glu Asn. Met Leu Asp Leu Ala Trp Glu Arg 
145 . 150 ' 155 16 l 

Gly Phe Val Ser Gin Tyr Glu Cys Asp Glu lie Arg Leu Pro lie Phe 
165 no' . 175 
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Thr Pro Ser Gin Arg Ala Arg Arg Leu Leu Asp Leu Ala Thr Val Lys 
160 185 190 

Ala Asn Gly Leu Ala Ala Phe Leu Leu Gin His Val Gin Glu Leu Pro 
195 200 205 

Val Pro Leu Ala Leu Pro Leu Glu Ala Ala Thr Cys Lys Lys Tyr Met 
210 215 220 

Ala Lys Leu Arg Thr Thr Val Ser Ala Gin Ser Arg Phe Leu Ser Thr 
225 230 235 240 

Tyr Asp Gly Ala Glu Thr Leu Cys Leu Glu Asp He Tyr Thr Glu Asn 
245 250 J 255 

Val Leu Glu Val Trp Ala Asp Val Gly Met Ala Gly Ser Pro Gin Lys 
260 265 270 

Ser Pro Ala Thr Leu Gly Leu Glu Glu Leu Phe Ser Thr Pro Gly His 
275 280 285 

Leu Asn Asp Asp Ala Asp Thr Val Leu Val Val Gly Glu Ala Gly Ser 
290 295 300 

Gly Lys Ser Thr Leu Leu Gin Arg Leu His Leu Leu Trp Ala Ala Gly 
305 310 315 320 

Gin Asp Phe Gin Glu Phe Leu Phe Val Phe Pro Phe Ser Cys Arg Gin 
325 330 335 

Leu Gin Cys Met Ala Lys Pro Leu Ser Val Arg Thr Leu Leu Phe Glu 
340 345 350 

His Cys Cys Trp Pro Asp Val Gly Gin Glu Asp He Phe Gin Leu Leu 
355 360 365 

Leu Asp His Pro Asp Arg Val Leu Leu Thr Phe Asp Gly Phe Asp Glu 
370 375 380 

Phe Lys Phe Arg Phe Thr Asp Arg Glu Arg His Cys Ser Pro Thr Asp 
385 390 395 400 

Pro Thr Ser Val Gin Thr Leu Leu Phe Asn Leu Leu Gin Gly Asn Leu 
405 410 415 

Leu Lys Asn Ala Arg Lys Val Val Thr Ser Arg Pro Ala Ala Val Ser 
420 425 430 

Ala Phe Leu Arg Lys Tyr He Arg Thr Glu Phe Asn Leu Lys Gly Phe 
435 440 445 

Ser Glu Gin Gly He Glu Leu Tyr Leu Arg Lys Arg His His Glu Pro 
450 455 .460 

Gly Val Ala Asp. Arg Leu He Arg Leu Leu Gin Glu Thr Ser Ala Leu 
465 470 475 ' 480- 

His Gly Leu Cys His Leu Pro Val Phe Ser Trp Met Val Ser Lys Cys 
• 485 490 495 

His Gin Glu Leu Leu Leu Gin Glu Gly Gly Ser Pro Lys Thr Thr Thr 
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510 



Asp Met Tyr Leu Leu lie Leu Gin His Phe Leu Leu His Ala Thr Pro 

515 520 . 525 

Pro Asp Ser Ala Ser Gin Gly Leu Gly Pro Ser Leu Leu Arg Gly Arg 
530 535 540 

Leu Pro Thr Leu Leu His Leu Gly Arg Leu Ala Leu Trp Gly Leu Gly 
545 550 555 560 

Met Cys Cys Tyr Val Phe Ser Ala Gin Gin Leu Gin Ala Ala Gin Val 
565 570 575 

Ser Pro Asp Asp lie Ser Leu Gly Phe Leu Val Arg Ala Lys Gly Val 
580 585 590 

Val Pro Gly Ser Thr Ala Pro Leu Glu Phe Leu His lie Thr Phe Gin 
595 600 605 

Cys Phe Phe Ala Ala Phe Tyr Leu Ala Leu Ser Ala Asp Val Pro Pro 
610 615 620 

Ala Leu Leu Arg His Leu Phe Asn Cys Gly Arg Pro Gly Asn Ser Pro 
625 630 635 640 

Met Ala Arg Leu Leu Pro Thr Met Cys lie Gin Ala Ser Glu Gly Lys 
645 650 655 

Asp Ser Ser Val Ala Ala Leu Leu Gin Lys Ala Glu Pro His Asn Leu 
660 665 670 

Gin He Thr Ala Ala Phe Leu Ala Gly Leu Leu Ser Arg Glu His Trp 
675 680 685 

Gly Leu Leu Ala Glu Cys Gin Thr Ser Glu Lys Ala Leu Leu Arg Arg 
690 695 700 

Gin Ala Cys Ala Arg Trp Cys Leu Ala Arg Ser Leu Arg Lys His Phe 
7 05 710 715 ' 720 

His Ser He Pro Pro Ala Ala Pro Gly Glu Ala Lys Ser Val His Ala 
725 730 ' 735 

Met Pro Gly Phe He Trp Leu He Arg Ser Leu Tyr Glu Met Gin Glu 
740 745 * 750 

Glu Arg Leu Ala Arg Lys Ala Ala Arg Gly Leu Asn Val Gly His Leu 
755 760 " 765 

Lys Leu Thr Phe Cys Ser Val -Gly Pro Thr Glu Cys Ala Ala Leu Ala 
770' 775 780 



Phe Val Leu Gin- His Leu Arg Arg Pro Val /Via Leu Gin Leu Asp Tyr 

785 790 795 800 

Asn Ser Val Gly Asp He Gly Val Glu .Gin Leu Leu Pro Cys Leu Gly 
805 810 815 

Val. Cys Lys Ala Leu Tyr Leu Arg Asp Asn Asn." He Ser Asp Arg Gly' 

820 825 . 830 
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He Cys Lys Leu lie Glu Cys Ala Leu His Cys Glu Gin Leu Gin Lys 
835 840 845 

Leu Ala Leu Phe Asn Asn Lys Leu Thr Asp Gly Cys Ala His Ser Met 
850 855 860 

Ala Lys Leu Leu Ala Cys Arg Gin Asn Phe Leu Ala Leu Arg Leu Gly 
865 870 875 880 

Asn Asn Tyr lie Thr Ala Ala Gly Ala Gin Val Leu Ala Glu Gly Leu 
885 890 895 

Arg Gly Asn Thr Ser Leu Gin Phe Leu Gly Phe Trp Gly Asn Arg Val 
900 905 910 

Gly Asp Glu Gly Ala Gin Ala Leu Ala Glu Ala Leu Gly Asp His Gin 
915 920 925 

Ser Leu Arg Trp Leu Ser Leu Val Gly Asn Asn He Gly Ser Val Gly 
930 935 940 

Ala Gin Ala Leu Ala Leu Met Leu Ala Lys Asn Val Met Leu Glu Glu 
945 950 955 960 

Leu Cys Leu Glu Glu Asn His Leu Gin Asp Glu Gly Val Cys Ser Leu 
965 97 0 975 

Ala Glu Gly Leu Lys Lys Asn Ser Ser Leu Lys He Leu Lys Leu Ser 
980 985 990 

Asn Asn Cys He Thr Tyr Leu Gly Ala Glu Ala Leu Leu Gin Ala Leu 
995 1000 1005 

Glu Arg Asn Asp Thr He Leu Glu Val Trp Leu Arg Gly Asn Thr Phe 
1010 1015 1020 

Ser Leu Glu Glu Val Asp Lys Leu Gly Cys Arg Asp Thr Arg Leu Leu 
025 1030 1035 1040 

Leu 



<210> 3 

<211> 37443 

<212> ADN 

<213> Homo sapiens 

<220> 

<221> exon 

<222> (63) . . (106) 

<220> 

<221> exon 

<222> (3908) . . (4406) 

<220> 

<221> exon 

<222> (12307) . . (12412) 
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<220> 

<221> exon 

<222> (15010) . . (16825) 
<220> 

<221> exon 

<222> (21017) . . (21100) 
<220> 

<221> exon 

<222> (21321) . . (21404) 
<220> 

<221> exon 

<222> (24355) . . (24438) 
<220> 

<221> exon 

<222> (27052) . . (27135) 
<220> 

<221> exon 

<222> (27730) . . (27813) 
<220> 

<221> exon 

<222> (29917) . . (30000) 
<220> 

<221> exon 

<222> (34244) . . (34327) 
<220> 

<221> exon 

<222> (36123) . . (37443) 



<A0Q> 3 

tcaccatata actggtattt 
atatggagaa gagaaggggt 
ccaagaagac agaaagagtg 
atgccccaaa gaggaaggag 
tgagggctga ggattgagca 
ggaactagag ggaatgggag 
aagggggcct gctgtaaagg 
tgtcaagaga gtgctttact 
ggatttgatc tcttagggag 
agggtggggg gcttggcccc 
gcttcccctc ctctcctgtc 
agcatttgct cttggcccca 
gtccaggctc aggcctgggc 
ctctctttca gcaaggaagt 
ggtgtctttg aagttgtagt 
agatttcgcc tgaagagggg 
aaggacaatt ttaggaaaca 
aactgaagca ggagaaactg 
cctgagctgg ttagtgagaa 
gagacaggac aatgcctgct 
ctgctctgag gtttctggaa 
gacagagctc cgagtcacgt 
caacgtcact- agctggggtg 



aaagccacaa gagcaggtgg 
ctaaccattg agtgctgggg 
aaaatcagag agttggggtg 
ggaacaaata tgaccaatgc 
atgggaggtc actggtgaca 
gggatgggag gacttgggga 
gagcagataa atgggattgg 
tttacaatgg agaattagag 
agaacagtgt tagggaggga 
agcagagact caggacactt 
tgcaaggggt cagtgggctg 
gagaaaccgg gctggctgtg 
ctgggtttca gggagggccc 
gatcctttct ctacatgggc 
aactgaagta gagatcaaaa 
aagcccgacc aggtaataaa 
gataatgagt gaatattttt 
aagctagaca taatgattaa 
cagcacta'ag gccaggttct 
cagagacagg gcctggctga 
gaaggccagg gcagaggtgt 
ggcttgggcg ggcctcccct 
tgtatggctc acacgtaggc 



gctcatctag ggatggagtg 60 
cccccagtgt taggaaccag 120 
tcctggagga aatgaagaaa 180 
ccctggcaga gcaagcaggc 240 
gtttcactgg agctggatgg 300 
cagcagtaca ggcaacagac 360 
agccaaatga agaaggggag 420 
tgcattgtgc actggtgggg 480 
gaatgcagga tagctggggg 540 
gggaagttga gcttccctgg 600 
agatttcagc acttaagcaa 660 
gtctcaggaa ggaaggaggt 720 
acgtgggtca ccccttgacc 780 
ctcaccttgg ggaggacaat 840 
ggcaatgcag atagactgac 900 
ggagtaagag gaaggatgtt 960 
tctctctctt tcccaattta 1020 
cttcccaagc tggtgagctt 1080 
cctccccaga tgtttaagat 1140 
attggccctc aggattctct 1200 
ggtgatgtag ctgctgggag 1260 
tcctggtgtc cacagaagcc 1320 
caggctgccc taggcttggt 1380 
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gtgcaaggga ggggccccta cttacttgtg 
cccagtgggg tttttcagtg agggtcatgg 
attgcttgga attgcctagt tctggaaggc 
ctttgggaat ttcccttgaa ggtggggttg 
ccactgggct tttggcattc tncacaaggc 
gcctaatggg ctttgatggg ggaagagggt 
gcaagtgtcc tcctcggaca ttctccgggt 
tgatcctcag ccttctttca tccttggccg 
ggagtgctga ctctgtttct gggctgtttt 
cccaggacct gggcagggtc aatggtgggg 
acagctgaga accactccag ggccaagccc 
ttcccctgtc ctcggccacc ccaccctctt 
ggagaactcc ttggcctgag agaactacct 
ggggtacacc ctctctccca agcagccaga 
ccatctgacc agcacagggc cccctgtgcc 
tccttttgct taccttggct accgtatgag 
gcccagggga tatttgattc atgaacattc 
gccaggctca gggatgccag gacgagtaag 
gagagacaca taaacaacca tcaggaaaga 
tcccttgagt gtctgggaat gtccctgatt 
gtccatgcct acaccctttc actttcgttt 
agaccccatg acaatcgcag aactgaccat 
cctgccaggg cttgaagctc ctggagggtc 
aggtcactga tgatagcagt ggcagcagtc 
gaggtgaggg ccctagggca agtgtgtgtg 
acgctcggaa acaacttagt ttgcaccgta 
agagcaatat tctgagtcta ccccttggag 
tggggccccc gtggggaacc caaatgtaag 
tggctcgtgt tgaaatcctg actctgcctg 
agcttcttgg tgcctcagtg tcttcctctg 
gagtggctgg gagggttcag tgaattcctg 
gtagtttatg cttaattaat attagccgtt 
gcatgaaaga gcccctctca ccctgcttcg 
atctctctct ctctctctgt cttttttttt 
ccaggctgga gcgcaatggt gccatcttgg 
gtgattctcc tgtctcagcc tcctgagtag 
ggctaatttt tgtattttta gtagagacag 
cgctcctgat ctcaagtgac cttgggagat 
ttaaacgttt taagccggag accaagcatg 
cttggttgct tcaaactctg tggaaccttg 
tttcacatct atatggtggg gagcttggat 
aactcgggtt ctgctggggc tgacttgccc 
tctggagaag tccctcactg accttgttct 
aggcttttca ggcacagagg agccagctgg 
gcttcgagag tgtcctggac tggctgctgt 
agggcttcca cctcctgggc cagcctctct 
tctggaataa gggtacttgg gcctgtcaga 
ccgacagcca gtcccccaag ctgcatggct 
gagacctgca gagtcaccgg ccagccattg 
tgctggacct ggcatgggag cggggtttcg 
tgccgatctt cacaccgtcc cagagggtga 
aggaaagggg tgcttagtca ccaagactga 
acttggtccg tgggatttcc cctaaaaagg 
cttggcagga aacatacaac tctttctttc 
ccctggctag aatgcagtgg cacaatcata 
agtgatcttc tggccttaga gtagctggga 
attttttttt tttcttttag ag'atggggtg 
cctggcttta agcaatcctc ccgccttggc 
ccactttgcc tggccaacag aacacttctg 
cagattctgg agccagaatg gtgcaggctc 
ctatggagcc tctccagcct cagtctccct 
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gcctgtcccc tcgtgaatgt gtctcatgtc 1440 
tctccaggat gcacaaggct ttgtgccaga 1500 
tggttggcca actctggcct ccggcttttc 1560 
gtagacagat ccaggctcac cagtcctgtg 1620 
ctacccgcag atgccatgcc tgctccccca 1680 
ggttcagcct ctcacgatga ggaggaaaga 1740 
aagaggagca ggcattgtcc cgtcccagct 1800 
cgacatgctc ccaggcctgg ggtcagatgg 1860 
ctggggagaa tgggtcggcg ggtttttttc 1920 
gccgctgtcg catccttggc tggtgtttcc 1980 
agagcttatt ctaccctttt ttgtcctctc 2040 
ggctcctctg cttagatgtg ggcacaagga 2100 
tagatcctgg cttccagtgg cctctgcagg 2160 
cacacaagta acctcattgc ctcagtttcc 2220 
ccagcagcgt tctgagagat tggagctttc 2280 
gacggataca gagtgttccc cccaccccca 2340 
cctcagtgtc tttgtggggg acaatgctgt 2400 
acccaggctc ccacgtggcc caggcaggga 2460 
ggtaaaatcc ccaggccact tggcatctgc 2520 
tataaaaaga agctgacggc cctctttgtt 2580 
cttcggggca ctgcagcagc ccttgtccac 2640 
gctgagagat tttcttggct gctcagggac 2700 
acttgccctc aaattcccag aacgcacagc 2760 
tgtgcacggt ggtttcgagg gcgtgggagg 2820 
ggaagtgttg atgggggaca aggcaccaga 2880 
atttttcact tcgcctagga caggaccttt 2940 
tagcagtgtg caaaacacac agcacgggct 3000 
agttagagac atgcattccg gagtcataca 3060 
tctagctgtg acacatcgta caaatcactt 3120 
tagaatgggt agatcatagg cactacttca 3180 
caggagagca cttagaatgg cacttggtgt 3240 
actgaaactg ctgtagcctg aatccagcca 3300 
aagagaatga attccctgat tgtttggaag 3360 
tttttttgag aaacggtctt gctctcttgc 3420 
ctcactgcaa cctctgcctc ccgggttcaa 3480 
ctgggattac aggcgctcgc caccacgcct 3540 
cgtttcaccg tgttggccgg gctggtctag 3600 
ctcttgctcc taatattacc tcaagccttt 3660 
gatatgggag ttaggggtct tgatttaatt 3720 
aggtgtttct tgccttctct gggtctcaat 3780 
tgggtaatgt ctgaggctag aaccatggcc 3840 
tggccttccc tgaccaccct gcatctggct 3900 
cctccccagg ttgtgaaatg tgctcgcagg 3960 
tcgagctgct ggtctcaggg tccctggaag 4.020 
cctgggaggt cctctcctgg gaggactacg 4080 
cccacttggc caggcgcctt ctggacaccg -4140 
agctcatcgc ggctgcccaa gaagcccagg 4200 
gctgggaccc ccactcgctc cacccagccc 4260 
tcaggaggct ccacagccat gtggagaaca 4320 
tcagccagta tgaatgtgat gaaatcaggt 4380 
ggcactcctg gtgtgcatca cagagttctc 4440 
tttgtcctca tgaagtcagc ctgtggggta 4500 
tagccaggca ggtaaaattt gctcttgact 4560 
ttcttttctt ttctttttct cactctgtta 4620 
gctcactgta gccttgaatt .cctgcgctca 4680 
ctacggctgc tgtaqcacca tgaacagcta 4740 
ttgctatgtt gcccaggctg gtctccagct 4800 
ctcccaaact gttgggattg caggcatgag 4860 
ccgagaggaa gtgtgtggtg gccaggaact 4920 
aaggtcaacc ctgtgtgatc tcaggcttc'c 4980 
tgtttcagtt tcctcatcta .caaaacaatg 5040 
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ttaatagtca aatggtgcct atcctataag gctcttggga ggattcaqtq aqttaatttq 5100 
agtaatgctt aggatagtgt ctattaccac tggctgctat ttattatttc tgttatgagt 5160 
gatactctgt acttgtacac ttttatttct gtctgtttta aattaacagc acaacagacc 5220 
ataacactgc agtatattga atttatttta taattaacat agcatattat aaactaatat 5280 
agcttaaatg tttatgtagg atttctgaca fcgaaatfcgca ttagafccata gatgttcaga 5340 
gttggtatat aacagcccct gagaatgtag taactcagca gagaccagaa ggtcagagaa 5400 
atgaccactg agtatttttg aaactctttt gttttcttcc aaatagtgat tcttagggct 5460 
cctgagaggc agatggaaca atcattaaca ttccacttta taaatcggga agttgagacc 5520 
aaggaaagta gtttgaataa gctcacagta gttaatgagg gggccagtgc tggaccaatt 5580 
ggccagcact ggtcattgac ttattcatcc atcattcatt tattcagcca gaatctatta 5640 
ggtgcttcat acatatttgc ttaaagtttg ttgtgttcat agagctttgc acacggtagg 5700 
tactccataa acatttgttg atgaaataag tgagttactg aatgaatgat tgaattagaa 5760 
tgacactgca gtgttaaaat gggctgggtt ggggaacatt ttagtttttg tttttgtctg 5820 
ttttccaaaa atgtatgtgt tgttcacatg agtctggata accctagatt gagattgatg 5880 
acataaataa atttgtcttc aaggctgcac taaagctggc tcacatggct aggtatttac 5940 
agagcagaag tggtgcagtc ctctctgatt agttgcacgt acagaagaca tattcgttat 6000 
tggactgacc ttagtttctc ttataatttg ttaggggaat tgaatcagcc catctgagaa 6060 
gttacaagat tgtgtcttgt catctttaaa agttcagcaa tgtgatgtgg tacagatggt 6120 
ctgaggggtt tggagaaggt agcctagatc cctagggccc agagaagaca ggatgtgaac 6180 
agaggaagta catggattgg tgaagaaaag aaatgggata actcatgggt caaagaagaa 6240 
atcatgatgg aaatcagaaa atattcagaa ccatacaata atgagaatat tatttatcaa 6300 
aatctattgg atgcagctaa agcaggacat agggggaaat ttacaacctt aggtgcctag 6360 
attaggaaag aaggaaggca tttgtttatt tatttgttta tttatttatt tgagatgggg 6420 
gtctcactgt gtcacccagg ctgctggagt gcagtagcac gatcataaat cactgaagtc 6480 
tcgaacttct gggctgaagt gatcctcccg cctcagcctt ccaagtaggt gggacacagg 6540 
ctagcaccac cataccaggc taattttttt tttgtagaca cagggtcttg ctatgttgag 6600 
gtctcaaact cctgggctca agtaatcctc ctccctcggc ttcccaaagt gctgggatta 6660 
caggcatgag ccactgcgcc catctaaggc tgaattttaa tgagctaaga attcatctta 6720 
agaaagggct aaatagacag caaaagcaaa cattgaaggt tgggactgag ctgagtgggt 6780 
agcagggatg ggagacaaca gatctgagga gagcaggaga ttttgaaagg attgcactgc 6840 
ctgaggttta agcctttaga atccagctct ctctgagctc cctttgagct ctgacattct 6900 
. gtgactctga tttggtggcc ttcccttagt ggccttactg atttcatttg gatggtgctt 6960 
gtggtatatc caaccaacat gtcttcccaa atggcctttt aatttcctat aaagaagtag 7020 
ttgtcattga ttgcaggtta gggacagaaa atgctgtgga atgaaacaaa atgcaagtta 7080 
aagaactaaa ttccaaaaat acccattgct actattgact gagtgaattc ctactgtgtg 7140 
ccagacactg tacccagtcc attccctgta ttgttttatt taagcctcac aagggtatag 7200 
tgtgactaca ctgtttctta acaatgaaga aactgcccaa atcgcccatc tgggaagcgg 7260 
cccagctaga atttgaatcc aggcctgttt tcctccagag cttgtgctat tctctgtctg 7320 
tcataaaatg tgggggcttt gtgtggtaaa cttgctcagt tgggcatagc agttgttagg 7380 
aaacctgagg ctggtaacac cagctgtaat accagctgtc cgtctgactc atgcaactgt 7440 
taaagttgat agggctgagg tgtcagactg agctctgaat tgcctgattc ctataacaat 7500 
attaacttaa acatttttta aattgggaaa tgcaccatgc atacagaaga gtgtgtatat 7560 
ttcatatgta tagtgtaaac tgttcccatc acccaggtta aaaaacagga tgttgccagt 7620 
acctggggcc ttctttaact gcaactgcta gaggtaaaca- ctggcttgac ' ttttgtgtaa 7680 
atcatctctt tgcctttctt taatgtttta gcatctttta aaataaatcc ccaaataatg 7740 
tattgttcta ttttgaaaaa ctgagtagca agccaaaaat agctgtgtaa agaaaggtca 7800 
cttaaattag gctgggtgca gtggctcaag cctttaatcc ca'gtactttg ggaggctgag 7860 
gcaggtggat cacaaggtca ggagatcgag accatcctgg ccaacatgga gaaaccccgt 7920 
ctctactaaa aatacaaaaa attagccaag aatagtggca tgtgcctgta gtcccagcta 7980 
ctcgggaggc tgaggcagga gaatcgcttg aacccgggag gcagatgttg cagtgagctg 8040 
agatcgcact gcttgaaccc' gggaggcaga ggttgcagtg agccaagatc gcaccactgc 8100 
actctagcct gggtcacaga gcaagactct gtctcaaaaa aaaaaaaaaa aaaaagaa'ag 8160 
gttactattg ccftttctta gatgaaggtt cccaaggcag ggaaagctaa gtggagtctc 8220 
agggacttgg tctggctttt ccttccctgg gaatttataa ggacctcttc tgggaagtca 8280 
gtcggcaatg ccatgaatga gtctggggaa atattgggct cattgcaact ggagggtctg 8340 
gtaggactga tgtgaattag gtgctgtgtc cggaggaaaa tggccagagg aagtgggctg 8400 
ctttgtacag tcagtggtaa agttgccaa.a ggctattata gctcacagga atgggccaag 8460 
gctaaacact cctgtggagt gaaatgaatg tcctcagctg actgaggcag cgggagttga 8520- 
gaagaaacga tattagttca tggtgaagac aagtcaaata . tagataaagg ttagggtcag 8580 
gcttgcctgg acatctagga gataactgcc ctcaacttgt ttgaatcttg agtcactgct 8640 
ccattttgtt tgaactggtg. gccatctact ta.tagtatac agccatcaac ctgagatttc 8700. 



12 



WO 01/72822 

cctacatggt cttcctgcct tggtctcctg 
ggtttactac attttgctag accgtatcct 
agttaaaatt tctgaggtct cacatgtctt 
gctgggtata aaattctggg ctggccatca 
cattatcctc tcttttcaat attgcttcta 
tttgagacag tgtctcactc tgtcacccag 
ctgcaacctc cacctcctgg gtttaagcga 
gattacaggc acccaccacc acacccttta 
gctggtcttg aacttctgac tttaggtgat 
attaaaggcg tgagccacca cacccagcct 
cttttaaaat tttcttttag tccccagaat 
cttccattat attagtcacc caagaggtac 
gaaatgttct tgattagttt acaggtgatt 
catgaaacta ctattaattc aatgttagaa 
ttttccatct ctgtgtcttt ttgctctact 
actcttgagt ttttcatttt tgatgtcatg 
attctttttt gtagtatctt actcttgttt 
atcataagat aggtgggttc tttgtttgtt 
ttttctacaa gtttctttcc ccttcccccc 
tttctctggg ctcatgatac tctttggttt 
aaacttgttg agcatgcggg tgaaacttgt 
agattgacag tgtttatatc tttagatctc 
caccacagac cttttgcctg gggataaacc 
agtcttcctt gttttagtca tttccttcag 
gagcccttta cagatcctag ggtacacact 
taagatttgg ctttcaggag tctcctcagt 
tgagcacctg atttgtgcca gacattcttc 
cagacaaaaa tctttgtctt ggaaatacac 
ccaaaggaag gaaattacag cgtgtgctag 
agtgggtttg ggagttgaga gtttgggaag 
agtcagagtt ctcacttaga aggtgaaatt 
tagccacatg gatggctagg ggaaggcttc 
cagaggcagg agcatacctg gtagttttag 
aagagggggc atgaaaggag aaacttgggt 
gttttgggcc ctgaaggtta ctattggact 
tattgggacg tttgtacagg agcaatgtga 
tggctgtggc attaaggcta ggctgtgggg 
cagcctgtgc agctttccag ataagcaggg 
aggtgacaag aaatgactct atgtctggta 
cactagagac ctggctggtc cacatggagt 
caaagactta atatgaaaaa aaaaatttaa 
ttttttgaga cccagtcttg ctctgtcacc 
tcactgcaac ctccgcctcc caggttcaag 
tgggactaca ggcacctgcc accacgcctg 
ggtttcacca tgttgtccag gctggtctgg 
tggcctccca aattgctggg attacaggca 
ttttctacat ggattacatg ttgaaatggt 
tatatgatta aagttgattt catctatttc 
gatttgaaat tccacatgcg gcttgcattt 
gccctttttg ggacatgctt tgaaggtgga 
aggcttcaag ggtgactcca agacttcggg 
tagccaagat gaggaaggct gtcggtttgg 
ttgaatatgt tggaggtgtt tatgaaactt 
tgtgcaagtc cagggttcag ggagacagtt 
ggagagattg tattcaaata ttcaatccat 
tgatttacag cctgcagaat cattttccct 
tcatttattt ttcagttatt cactgtttta 
catgcgttca attcaccatc caacactgta 
gttgtttttt tgacctttta ttctggatgg 
agiaagcctt. cccacattgc tccatcagcc 
ctgtaggcaa gaaggctgct- tgatcttgcc 
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tatcctgaat cctatggcct cttcttccct 8760 
ccagtcaatt ccttagaatg aatgtatgaa 8820 
aaagttccct catactggat tgatagtttg 8880 
ttttccttca gaattttgat tgcattattc 8940 
agaattccaa aacctutttt tttttttctt 9000 
gctggaatgc agtagtgtga tctcagctca 9060 
ttcttcttcc tcagcctcct gagcagctgg 9120 
gtagagatgg ggttttgcta tgttggccag 9180 
ctgcctactt cggcctccca aagtgctggg 9240 
ccaaaaccat tttaaaactc tttctggaag 9300 
tttaaaattt caattatgtg ccttggtgtt 9360 
tttcaatctg gaaacttctc tatgttttgg 9420 
tcttcctctc cattttatct cttctctttt 9480 
ttccttgact gatcatttaa ttttcttcta 9540 
tttctatgat agtcacagct ctatctttaa 9600 
attttaattt gcaagaggta ggtttgactg 9660 
tatggatgca acatcttctt tgacttaagg 9720 
tgtttgactg tttttcaccc tatgtaaact 9780 
tttttggctt ctatctccca cattagatgc 9840 
tctttctcaa gattgacagg taggacttta 9900 
ctaccatgaa tttcactgta gatattttgg 9960 
acctcctggg ttgatcaagt tatctgagta 10020 
agaaatctgt ttcagaaacc actttgattc 10080 
ttccggaggt ccgtcatgct gatcattcca 10140 
gcatggtttt caactttctt gttttggggt 10200 
ccgttactat tcattcaatc agcaagtcct 10260 
taggtgttag ggatacctca gtgaacaaaa 10320 
acactccagt caggggagag ggacaataag 10380 
aaggtgataa gtgctgtaga aagtaagtaa 10440 
gggataaatg atggcaattg taaatagagt 10500 
caagtaaaga cttgaaggag gacagggaat 10560 
caagctgaga ggacagccag agccaaggcc 10620 
gaaacaggag gccaggatgc tgagtggagt 10680 
ccacgtggtt ctagacaggt atttttgtct 10740 
tggactctta ctctgaggaa atagggacgc 10800 
cctgagtttt gtttgtaaag gattagactc 10860 
gcaggaacag aagcaggggg accagttttg 10920 
attgtggctt ggaggaggat ggtatagagg 10980 
tgtagatatt ggccacagat ggcatttgag 11040 
ttccataagc acataataca catcagattt 11100 
cgggccccgg gaattttttt cttttttttt 11160 
caggctggag tgcagtggtg tgatctcggc 11220 
tgattctcct gcctcagcct cctgagtacc 11280 
gctaattttt tgtattttta gtagtgatgg 11340 
aactccggac cttaggggat ctacccgcct 11400 
tgagccacca tgctcagcca tatcttgcta -11460 
aatgttttgg ctattgtgga ttaaatagaa 11520 
ttttaacttt aaaaaatatg tctgttagag 11580 
gtgacctgca tttcatttct gtggaacagt 11640 
gtcaacagga tttggcagat tacagacgag 11700 
gcagagcacc tggaagaaag gggttaatat 11760 
caggtgcatg ggcaggttag gagtttagtt 11820 
ttaagtggag atggaaaata ggcagttgga 11880 
caggctggag atgaagatgt gggagtctga 11940 
gagacttgat gaaatcactt ctcttccaaa 12000- 
atctttgtag gtttatgtct tcattttgtt 12060 
gtgagttttg agtaggagcc agattggatg 12120 
ttaactactt gaaactcatg tggttgttcg 12180 
aagagagatg cttatgaagt tgcagtaatc 12240 
ttcctggaag aataatgtct tctgcctttc 12300 
acggtgaaag cgaatggatt ggctgccttc 12360 • 
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cttctacaac atgttcagga attaccagtc 

atgttctcag ttaatcagaa agggaagggc 

acacacctcg gttaacatcc catatgctgg 

tgttttaagg ctagcaccac cccgtctcat 

accatatatt gagggctaac taaaggtgtt 
cgaaaagata tggacacatg ttttgagtta 
gcagctcaca atgggaaact caagaaccaa 
gcccagggtc accacccaaa ctcaggaaca 
accaggcatc ctgccaggtg ctttatggac 
gtaggtggtg tttttttcca ccttatagat 
agggagggga agatgggtct gattgtaaat 
gagaagaaat gtcagttgta aagagagagt 
tacaccactg tagggaaagc tcattggcac 
cagatgggtc tatcaccctg gactgtgtcc 
tggctggaag tctgtgcctg gcactcgcga 
aacatcagtg cgccacagca gggtgcgcgg 
gttgaggttt gctgttgaca tcatcaagca 
gcaagattcc ccacacttct aaaggtgaca 
attttttttt tctggagaat tttagtatca 
atcaggtcgg aagaggaaga tatatatctg 
atggtctaag ttcagggatc ctggtatatt 
aactctggga acagaggtga cataaacaca 
catcagtgag ctcagagctc tatgaaaatt 
gccagtgttt ggttgggggc agtgaggctg 
cagcctggga cgctaaacca gcacttcccc 
caggaaatgg tttgcttgca ttiactttcag 
acacaccccg tgcatgaaaa ctctccctgc 
aggcaggatc acagactctt gttcgagtgc 
cttcccttgc taggtccacc cagatcaatc 
ttatcacatc tcagagttcc ttttgccacg 
ccggacatgg acatctttga gggtctattg 
ataataagca ccattttttg agagtttgcc 
tctcgctgcc tcctgaaaaa atccttccag 
agaactgagg cccagaaagg ctaaatggct 
aaactcaggt gtgtctggct tcagagactg 
ctttagaaaa agtcacctga ggctgagtgg 
ctatggcagg acagatatca gaatacaggt 
tcatctagaa ctcctcctgg tgtcagtaat 
acttactttg tgttgagcac ttacactgtg 
atccgtgtaa aactctgtga ggtagtgacc 
ctgagggtta ggaagtttcc ttgactgtcc 
caggatgggc gcccgctggc tctcctatcc 
cccattgtct ggttaggtcc cgtcttcacc 
gccttccagc tgccacatgc aagaagtata 
agtctcgctt cctcagtacc tatgatggag 
cagagaatgt cctggaggtc tgggcagatg 
cagccaccct gggcctggag gagctcttca 
acactgtgct ggtggtgggt gaggcgggca 
acttgctgtg ggctgcaggg caagacttcc 
gccggcagct gcagtgcatg gecaaacqac 
gctgttggcc tgatgttggt caagaagaca • 
gtgtcctgtt aacctttgat ggctttgacg 
gccactgctc cccgaccgac cccacctctg 
gcaacctgct gaagaatgcc cgcaaggtgg 
tcctcaggaa gtacatccgc accgagttca 
agctgtacct gaggaagcgt catcatgagc 
tccaagagac ctcagccctg cacggtttgt 
ccaaatgcca ccaggaactg ttgctgcagg 
tgtacctgct gattctgcag cattttctgc 
aaggtctggg acccagtctt cttcggggcc 



PCT/FR01/00935 

ccattggccc tgcctttgga aggtaggtgt 12420 
agtcagtgca gatccatggt taagagcaga 12480 
cagtatagcc tccctatgac tcaatttcct 12540 
tgggattttg ggagcattaa aaggacaaaa 12600 
tctcccacac agtatactga caattgggct 12660 
acttaccatc caaactctca ttatctgtac 12720 
gggctggtat ctcttgatct ctgaaattta 12780 
gtggatctag agactctggt atccctcagt 12840 
ggaggggctt ggaccgcacc acttgaacat 12900 
aatgtctacc ctttgcaaca accctgagaa 12960 
gtggaaactg ggcagggagg ttaagtgacg 13020 
tgtccccacc tacactttct cttttcttgg 13080 ' 
gcaagcctgg cactctttag ggcttgttcc 13140 
tgaagccccc tgagctgtgt gtggtgctgg 13200 
tctgggcagc aagcaagcct gtgggcgggg 13260 
gtgcaccgtc tcattgaaga acaggatcta 13320 
cacggagtgc aggccctggt ttggcccttg 13380 
cagctagtca ctgtaagacc aggccagggt 13440 
attggtgtat ttatttctct ataaaatgac Z3500 
ttggtgatga ctggaaaacc tgcatcagaa 13560 
atatgtactg gagaggaaga tatctatctt 13620 
cagagggcag aaagctcagc aataatcatc 13680 
gggcgtcccc tttgtgtgac tgcagatagt 13740 
acttgctagt ttttgggttg aaaatagtgg 13800 
tgatggcggg ggaccatgcc aagctcctac 13860 
atttcctgaa aggggaacta aactctgaca 13920 
gatgagaaag gaagagcact ggccttccaa 13980 
atggggtgca tggggaggat ggggaagtgg 14040 
tcagctgggg caccccggtg accccgaggc 14100 
aggatcatct ccccatctcg aagtttaact 14160 
taaggtaaca tattcacagg ttctgagaat 14220 
ttgtgcctac tatatccatg aataataatg 14280 
atgtcagata ttcttttaaa ctgtatttta 14340 
gtgtatattg tccccatttt tacagatgag 14400 
tgcccaagtg tatggtggac ccaggttttc 14460 
ggctcctgag cccttaagcc ctttgttccc 14520 
tgaagggatt tatccaaagc cacccggcca 14580 
cttccgatcc cagcccagag ccccttcccg 14640 
gataacggca gtcactgatg tcttttgagc 14700 
ctaagcactt gacataggtc atcttagttg 14760 
aacatttctc ccaccttaca gaggtggaaa 14820 
tcaaagtgca cagcttgtga atggaggagc 14880 
cttcagttat gtcagcgtcc cccgcagcag 14940 
atggtgccac cttcatctgc ctcttcttct 15000 
tggccaagct gaggaccacg gtgtctgctc 15060 
cagagacgct ctgcctggag gacatataca 15120 
tgggcatggc tggatccccg cagaagagcc 15180 
gcacccctgg ccacctcaat gacgatgcgg 15240 
gtggcaagag cacgctcctg cagcggctgc 15300 
aggaatttct ctttgtcttc ccattcagct 15360 
tctctgtgcg gactctactc tttgagcact 15420 
tcttccagtt actccttgac cacc'ctgacc 15480 
agttcaagtt caggttcacg gatcgtgaac 15540 
tccagaccct gctcttcaac cttctgcagg 15600 
tgaccagccg tccggccgct gtgtcggcgt -15660 
acctcaaggg cttctctgaa . cagggcatcg 15720 
ccggggtggc ggaccgcctc atccgcctgc 15780 
gccacctgcc tgtcttctca tggatggtgt 15840 
agggggggtc cccaaagacc actacagata 15900 
tgcatgccac ccccccagac tcagcttccc 15960 
gcctccccac cctcctgcac ctgggcagac 16020 
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tggctctgtg gggcctgggc atgtgctgct 
cacaggtcag ccctgatgac atttctcttg 
cagggagtac ggcgcccctg gaattccttc 
tctacctggc actcagtgct gatgtgccac 
gcaggccagg caactcacca atqgccagqc 
agggaaagga cagcagcgtg gcagctttgc 
tcacagcagc cttcctggca gggctgttgt 
gccagacatc tgagaaggcc ctgctctggc 
gcagcctccg caagcacttc cactccatcc 
tgcatgccat gcccgggttc atctggctca 
ggctggctcg gaaggctgca cgtggcctga 
gtgtgggccc cactgagtgt gctgccctgg 
tggccctgca gctggactac aactctgtgg 
gccttggtgt ctgcaaggct ctgtagtgag 
ggagcaccat caaggctaag tgtgggagca 
cttcgcctct gccaccctgc tttgcaacac 
tttcaatatg tgatgatgac agccacactt 
ctatgctttc cggaatgacc tcatctaatc 
tgttattatc tccattatcc ttgacttgag 
aatggcagag ctggggttca caaattgcat 
cagtctatgg atacacttca gaggctccct 
tgtgtagtat gtgtccgtat caggaacaac 
gagactttaa caccccaacc agatgggaat 
agggttacaa ctactgttgg attcctgagg 
tacccgtatt gcttagagcc ccagccaaag 
gcccctgaac tcgggggcct ctttccacat 
ctaggcctgc ggatcagcat gcgacagatt 
tgccctgctt ctatttagaa cctataggaa 
attcccagcc tccaggggct ttgggctaca 
ggacaaacca cttcctgaga gtattaggat 
aagatttatt tttcatcatg gaccaaacac 
ttttgttaac cctgacatag ggaccatggt 
acataacata tatagcgaat atatatatgt 
acccatcatg gtcttggagg aaacagatga 
ttgaaaaaca gattgtttac aagccatggg 
caggggcctg gggttagtaa cagctggggg 
gactaattag ctggggggaa ggtatggaga 
atactgcttg gccctaactc ctcaccccaa 
ctggacccat cagggaggcc gagtgggctg 
cccaggagcc agggacgggt agagaagggg 
cagccagcac caaactctat ttccctagga 
tggaaacctg tctgttggag caatttccct 
tagtagactc agtttttacc ccaagaggcc 
gtcagtccat ctctggaatt cttgaatg'ga 
gattaccagg gtgtgcagaa gggctctggg 
aaaggtgagg gtggcctggt tctagctcat 
cgtggcaatg cagattcctg ggcctgcctc 
gggcccagga aatctatatt tttcacagac 
gccctgggag aactactggt ctgcagcaac 
cttgagcgag ttttactgct cttcacctta 
aggggaagca a.ccatgaggt tgctgtgagt 
tgtgtgtgtg tgtatgagag agagagagag 
agggcacagg ctcctctccc acagtgccaa 
tgccaactga aatcctcagc ctptaggaaa 
tctttagact ctggctctct cagactctag 
acagagagag agcacgcacc accatgtaaa 
gctttatgaa ctctgagapa ctctgctctc 
tgctgctcag gaccttcaaa atgatttgca 
tgcactacag aagtggccat aagaggccct 
gagtggggtt tggagccaag ccgcctaggc 
caaagtcact tcgcttgtct gtgcctcagt 
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acgtgttctc agcccagcag ctccaggcag 16080 
gcttcctggt gcgtgccaaa ggtgtcgtgc 16140 
acatcacttt ccagtgcttc tttgccgcgt 16200 
cagctttgct cagacacctc ttcaattgtg 16260 
tcctgcccac gatgtgcatc caggcctcgg 16320 
tgcagaaggc cgagccgcac aaccttcaga 16380 
cccgggagca ctggggcctg ctggctgagt 16440 
gccaggcctg tgcccgctgg tgtctggccc 16500 
cgccagctgc accgggtgag gccaagagcg 16560 
tccggagcct gtacgagatg caggaggagc 16620 
atgttgggca cctcaagttg acattttgca 16680 
cctttgtgct gcagcacctt cggcggcccg 16740 
gtgacattgg cgtggagcag ctgctgcctt 16800 
tgttactggg cattgctgtt caggtatggg 16860 
ccgagctggg ctctagaagt ctgggcccag 16920 
tgcccagatc ccttcccttc tgggccttaa 16980 
tattgactgg cctatgtgct gggtctggtg 17040 
tctacaacca ccctgggggg taggcaggaa 17100 
gctcagagaa gtgaagtaac ttgtccagga 17160 
cattctgatt acaggttttc tgcctcccac 17220 
gaaaaccttg aggtcacttg cagaaagttt 17280 
accaaatcag aggtgacttg tgccccatca 17340 
ttcaggaccc aagaaataga aagtggctgc 17400 
tagcacagtg tccaaacagg atttcagcac 17460 
atgtgaggtt ttgccctttg gagaatctgt 17520 
cttgggggca ggcaagggca gagggtgtgc 17580 
ccccaacatc cttccagctt gaaaggggat 17640 
agcagaagtt ctagattgaa gttaaaattg 17700 
cctggatgac cttaattgac cctaagcatg 17760 
ggtatacatc ttctctgggg gcaaagcaac 17820 
atggataccc actagaaact gtgtagtgaa 17880 
ctttaggtta aagcataata acaacataat 17940 
attatatgca atgaatgtaa atatgattat 18000 
cacacttaaa atgggtgttt tgaggagagt 18060 
caggagttag gaagagtgag agggttggtg 18120 
agggtagact tgaaggggga aggggaggga 18180 
cggctgcctg agcttctgca aagtggaaga 18240 
ctcttgctcg tggccagcgc cttccaccag 18300 
tctgctggag tagtccccag gcatcagcct 18360 
gagagtggat ctggccaggc aaatggaaaa 18420 
gggaggatca tgatactttg agtgggaatt 18480 
gatagaaata agaatgtgca ttttcctggg 18540 
aggcatcact ggcctgtgtg atcctcatag 18600 
tcatccatcc ttgattaggg atgtccccgt 18660 
aaacctgtgg gtctgtctct gtgttcagag 18720 
ggtgctcaga ctgtggtgtg taaaggcact 18780 
tagtgattcc cattcagtag gtttggggtg 18840' 
acccctggtg attctgatac aagtggtctc 18900 
cagcttggtt ttccattagc aattactgtc 18960 
cacacactaa aactgccaag gccgtagggg 19020 
gcactgtgtg tgtgtgtgtg tgtgtgtgtg 19080 
attgagaaag agaggaaggg aggaaggggg 19140 
cctgcctctc tcccacttga agcgtttcca 19200 
ccctatatac acagtgcccc tatataggtt 19260 
agtgatggct ttaaaagttt tatgttaccc 19320 
catggaacct aagtttcaca aaatgacttc 19380 
ttctgttctg ttctatttcc attttagaaa 19440 
tgacctgcaa cctgcagtct gaaaaatcac 19500 
gagggagaag ctgcacaatg tcatggttaa 19560 
tcaaagcctt tatgtgccgt acaaccttgg 19620 
ttctttctca cgaatgctca taataatggt 19680 
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tcccatttca ctggcttgtt gtgaggatga 
tagtgatcag tgctagcgat catgattcta 
aaggctttat gtgcacagcc tggtgaggct 
ttggaaacgg agtctcgttc tgttgcccag 
atgcaatctc tgcctcccgg gttcacgcca 
gactacaggc gcctgccacc acgcccggct 
tttcactgtg ttaaccagga tggtctcgat 
ctcccaaagt gctgggatta caggcgtgag 
agatgaagag accagcaaat aactagtaag 
ggcactccag agcctgagct gttaaccatt 
taaagaatca tgtgcacagt tgttaaaata 
cttgattgcc agctccaggg tatgggcctg 
gatgttgtga tcaggtgagt tttgggaatg 
gctcggcagg gactagcctg ttggagtggt 
cctcactaac cacagcctat atgcctgttt 
tctactgtct gctgacctag atgatggtaa 
ggctgcacct ttcgcatata tcagctcctt 
tgattatcat gttccttttg cagagatgga 
ctaaggattc cagggttctt tagtaggggg 
catagtgcac cacgtcacct ccctggccag 
ctccatctat gcagggtttc ctggaagcac 
tctttttggg ggatttgtag atttttttct 
tattttgtct ctttagtttg cgcgataaca 
ttgaatgtgc tcttcactgc gagcaattgc 
gacaatgggc tccaagtgcc ctggtctcac 
tgatgggctg gggcaggggc tgtttgcatg 
gggaagggca accctgggat ttggtgctca 
tctcttctgg aactgaacag tctattcaac 
atggctaagc tccttgcatg caggcagaac 
cttattccct ggaaactatt ttttgcccca 
tggcactgcc cacactggct cctgacctcc 
aagcaggggt tctctaatgc tgtgatctcc 
acttcctgtc ttttgacctt tagcccgtag 
tttctgtgtc taagagtgtc acagctttct 
gctcgtcctg gtgggggagg catacacagt 
gctgcaacac tcccaggagg tcctttcacc 
tggttctgca tttctgctac tccagtgtct 
tacctgatgc ctttaaattg cccctctagc 
cttctctctc tctcagatat tcttgcctcc 
agtaaagaat tgcttccatc tattctttta 
gccattttaa aatggcgggc cacatagctc 
cacaggtgcc aatttgtaca aaggactcag 
cacaagcctg gaataggctg tggccagacc 
tttcagaaat ggaggctgag tttgtggcca 
gatgttctaa gaccccagtg gatgcctgaa 
catgcttttc ccaataccta cacacctgca 
aagagagtaa tagcaactca taataaaata 
aacactatgt gaatgtggac tctctccatc 
acccttcttc ttgggaagat gtgtggtggt 
tggatgacgc atgcagcact gtgctctagc 
agaaggagaa tcatctgctc ccagagatcc 
ctggatgtca ggagcagacg atcttgatga 
gcgctggacg gggggctgat tcacgtcctg 
gaatagcatg caatttaaaa tgtatgaatt 
tttggactgc agttgatttc agataactga 
gggggcaggg attaccgtat atcattgtaa 
ccgaggtttg aaccctcatt agctgcgtga 
cgtttcccct tctgtagaat ggaggtaata 
agcaagcaag ttaatccaca tgaagggctg 
cgagtggctg aaagatgatg ggtaaatcac 
agtccggtcc tccaagcagg gattcaatgt 
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aatagtgtta ttattgagaa gtggtaaggg 19740 
ggtgactttt actgtgtacc gggtgctcac 19800 
gataatacta ttgttccctc tttttttttt 19860 
gctgggggta cagtggcaca atctcggctc 19920 
ttctcctgcc tcagcctccc aagtagctgg 199U0 
aatttttttg tatttttggt agcgacaggg 20040 
ctcctgacct cgtgatccgc ccgcctcggc 20100 
ccaccgtgcc cggcctgttc cctcttttat 20160 
tcgctgatca ggatcacaat atccagctga 20220 
cagtcagggc ctcccaagtt tgcctaaaga 20280 
tacagattcc tgggccccac cccgcagata 20340 
agaatctgtc ttttagggaa gctttcagat 20400 
gtgccccaag aggagtggca gacagggctt 20460 
gccattgggg ttaaggactg ggcagcaggg 20520 
ctgaagtttt ggccactctc atccagctgg 20580 
attgtcccca ggggtagcct gtctagttca 20640 
tccaccatca tcccctttgt gaggctgctg 20700 
aacattgcct caaattagct ctgtcatttc 20760 
tctggatcct acgtcctggg ccatccccat 20820 
ggaccgtggg gtctccactt ttttggggtg 20880 
agatgctggc acttcaggga tgaatgaaag 20940 
tgtcttacta gctccatttt caaatgtatt 21000 
atatctcaga ccgaggcatc tgcaagctca 21060 
agaagttagc gtaagtcagc ctgggctgtg 21120 
cccaggtcgt gcagcctggg aagctgtgag 21180 
at ggggggtg caggtgattc ctgcccagag 21240 
ctgtccaatg tgctttgctt ctgtgtctcc 21300 
aacaaattga ctgacggctg tgcacactcc 21360 
ttcttggcat tgaggtgagc ccaggttttc 21420 
ttcctgagtc agtctgatct ggtcttggcc 21480 
tgattgaatg cagggacagt gtctcatttt 21540 
ccagtaaact ctggactagc tctgctgagg 21600 
ggcaagaaag cttttctagg cccctttcct 21660 
ggggttactg agttccacga tgcatgttga 21720 
tacttgccac cccagctgtg gcagcgagtt 21780 
actcagagca tgcaaggttt gcagtccatc 21840 
cccagtttca acaggagtct ctctctctcc 21900 
tggccgctgg gttggcctgg cttctctctc 21960 
tgtgatttgt gaggcagtaa aaaaagacaa 22020 
cctcttgggc tgggtttgtg gatgggagcc 22080 
agtctcggca agggctactg agatcagaac 22140 
tcctgctacc actgcctgat ccctcagact 22200 
tggctggccc atccctgaga agggtgctag 22260 
acacagtagt cctccggtat gtgcaggaga 22320 
accatggaga gtatcaagcc ctacacatac 22380 
ataaagtgta gtttataaat taggctcagt 22440 
gaacaattat aacaatcaat atactataat 22500 
tccctcaaaa tatcttcttg tactgtactc 22560 
aaaatgcctg tgtgatggga ggaagtgagg 22620 
gctgggctgc tgttgacctg accacacttc 22680 
ctaatctttg agcaacaatg aggtcggcag 22740 
ttaccaaatg ggagcgtata gagcgtggat 22800 
ggtgggatgg agctggatgg cacgtgatca 22860' 
gtttatctct agaattttcc atttaatatt 22920 
aaccatagaa ggcgaagctg cggataagca 22980 
tagagagcac aggctctgga gcca.gactgc 23040 
cctcaggtca gcccaatgtc tgtgtgcctc 23100 
accctggcta cctcacaggc tgtagtgatg 231(50 
caccgtctgg caggggcttt atatagtaag 23220 
acaagcactc agcttgtttc tccttatgtg 23280 
gccacccatt tattggggaa aagtcctaaa 23340 
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aggggaagtg gggaagggag ctgggqgagg ctgggaggtg tgtccctgag tgaaggagag 23400 
agggaaggaa ggaaggttga gactgggcac cttggacttc agtgcagtcc taagacatct 23460 
tggcaaggct gatgaggagt tcttgaacca aattcaccag gcaggggagc ctgatgtctc 23520 
aggcaggggc tggcaagtgc agatgcgagg atgttagatt ttggagcaca gcagctgggg 23580 
cccttggcta cctccaagga gctgaggctg gagacctgaa aggcgagttc tcctagctgc 23640 
cacacccctt ctccaaggat acaataatat ctgccttata ggattgttgt gagctgagtg 23700 
gcttgacgtt ccttgaaaga atgaaagcgt atagttatcc caggaagcct agggttgcag 23760 
gtgagagctc tggggcttct ccgaagctct ccgaggtgtc tggattcagt tgcagcagga 23820 
gccttccttg ctgggatctt cccccacccc tagccttggc cctccctctc tccttccttt 23880 
ctggaaggct cagtgggccc cacccctccc tccagccacc tggacctgcc cagcgctctt 23940 
gtgcaacagg taaagcctac ctgtagcaac aacagatctg ggaaggctgc agagggcacg 24000 
atggggtctg gatcgagggc ggctgagacc agagggaaag gtgtgaccct gagtcaccct 24 060 
cgctgtcccg gggaaaccac ctcccaggac agctgcctac tgtggctcct gcctggaatt 24120 
gtcacactgc tgtgcaaaca gcgtcccgct gcccctttcc ctttgctggg ggaaaatgaa 24180 
gttgtgggag ccgctgagta aactagacct agcagcgagg gcacctgatg tggctgctgc 24240 
ctcccgggca ggtcttcaat gctttcttcc tgtgtttccc tggccagggc acagacggcc 24300 
ctccttttct gcctgccgct gtgttctctc agcctcctct gtcttccctt ccaggctggg 24360 
gaataactac atcactgccg cgggagccca agtgctggcc gaggggctcc gaggcaacac 24420 
ctccttgcag ttcctggggt aggttggatt ccaggaagag ggacctgcat ggaggggctt 24480 
gggacttttg aggatttagg ggcaggtgaa actcttcagc caggaggccc cagaggcagc 24540 
ccagctccag tggggaggac aagccaggga gagagtgggc ggcccttgac tgccaccttc 24600 
atacttggtc tatgcctgac aaacaggaag tttgggatgt tggggctagg ggaggacagt 24660 
gcccacgagc tggtgacagg aagccctctg atcctcaggg ggcgctaggg ctgtacttta 24720 
gctgcatatt aaaaccacct ggaagcttct aaacactatt gccaggcctc ccaccccaga 24780 
ctgatgaaat gcaaatatct aggtgcaagg cccaggtatc aggagtttta aaaagcttcc 24840 
caggggatgt acagccaggg gtgaggaccc ctgacctaag aaagagaagg aaatggggaa 24900 
ggataggaag gcacccagga taagaggggc tgtgctaggt ccctcggagc tcttgctccc 24960 
tgtaggacca tgctagggcc tgccagggag gggagtaccc caacctgcag ccccagggtg 25020 
ggcttcctct gtttgctagg cacccaggct tgcacctgtg ctgtttccag cagcctctct 25080 
cctatcctgt catgccctag tgtgaactgg agtccatttg acaagaactg ggagttttag 25140 
aacctgggac tgtaggaaga gagaataacc ttagggccta ggtgttccag cccatttcac 25200 
agggaggcaa gttgccccca agctcagttt tttgttttgt tttgttttgt ttgagatgta 25260 
gtctcactct gttgcccagg ctagagtgca gtggcacgat cttggctcac tgcaacctcc 25320 
gcctccttgg ttcaagcgat tcacctgcct cagcttctca agtagctggg attataggca 25380 
cccaccacca cgcccagcta atttt tgtat ttttagtaga gacagggttt caccatgttg 25440 
gcccggctgg tcttgaactc ctgatctcag atgatccgcc cgcctcggcc tcccaaagtg 25500 
ctgggattac aggtgtgagc caccgcaccc ggcccccaag ctcagtttga gccacaaatg 25560 
ggactatgtt gctctagaaa tcaacatctt ttccacactg cattagtagc aacagagtct 25620 
agaacaaagg aggccacagc cccactgaac tctcttctgc ttgaggtcac atctgccaca 25680 
tcaggggtat ttacctcttt caacacatat ttattagggc acctgtctgg gccaggcgtt 25740 
gtgctaaaac ccccaaacgc tgtcatatga tacaaagtgt tctgtaactt gcttggtttt 25800 
tttttttgtt tgtttgtttg ttttgttttg tttttgttgt tgtttttttt tgcttcgcca 25860 
tatattatag gaattttttt aggtcattat gacctcttta tttacttaat tatctattta 25920 
tttattttac taatatttac agaaagggtc tcactctgtc acccaggctg gagtgcagtg. 25980 
gttgcaatca tagctcattg tagccttgaa ctcctgagct caagtgatct tcctacctcg 26040 
gcctcctgag tagctgggac tacaggcaca agccaccatg cctggccgat atttttatgt 26100 
tttgtagaga cggggtctca ctatgttgcc caggctggtc tcaaactcct gggctcaggt 26160 
gatcctccct cctttgcctc ccaaagtatt gggattacac aagtgagcca ccttgctcag 26220 
cctgacctca tttttcaaag agctgcagag tgttacataa tgtatttaac tggtcacttt 26280 
ttgatgacta t taagttgtt ttcaggtttt ttgttattac • agtgtcatat ccctggggca 26340 
cagagcagtg ctggcacata gccagagctc aatcgataca tacctaatga atgaaagtac 26400 
agtggacatc ctaattcagc cattctttgc taacttgtgt acatacctgt ccagggtagg 26460 ■ 
tccctagaat acagtcaata agtcagaagg tgtgagttgg gatctacctt ttggaaaggg 26520 
atgttttcaa actacagtga gtcagaggag gatggcccag aagctggggg agttgaagct 26580 
gatggcgtga aggaattagg ggtgttagga .agaagcagga gataaagagc tagcttgcag 26640 
aagaagtgtt agacttgtta tgggcaggta ctggagggta gctaaggact tgtgggtggc 26700 
agttatcagg aagcgtatct gaactaagtg tcagaaaaag tgtcacaact gtaaattact 26760 
cttgtcagtg agttcctgtc cttaagggtt agggctgggt agccctctac tattctctaa 26820 
gtctgtaatg taaagccact gaaaactctt gggttaagtt tggccatccc acccaaaaga 26880 
tggaggcagg tccactttgc tgggaccagg agceccagtg aggccactct gggattgagt 26940 
ggtcctgccc ctctggctgg . gactgcaga'g ggaggaggac tgttagttca tgtctagaac 27000 
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acatatcagg tactcactga cactqtctgt 
caacagagtg ggtgacgagg gggcccaggc 
cttgaggtgg ctcaggtaag cttcagagtc 
gaagagggag gagctggggc cagttctgaa 
y l Lay y cast ggagtaagga ciaaaagacca 
tctgggtgac ttggaaatgt cccttgtcct 
gaagatattg ggctggatca ggtacatttt 
gtgggtgccc agtgcaccac attaaaaaga 
agcactataa tcaattagtg atgtctaaaa 
ttcaattagt gatgtctaaa aagggtagaa 
cgcaatcaat tagtgatgtc tgaaatggag 
tccataggtt agctcatctc tgaggtcttt 
tacctccagc ctggtgggga acaacattgg 
gctggcaaag aacgtcatgc tagaagaact 
ggaagtggat cacaatctct gttgatcccc 
cagacaaagg tggatgattg agtgattgac 
tactgagtgg tatgaagctt atagagcctg 
aaatatatgg gtttgctggt ttggtgactg 
gactctgtaa tcaagcaggc cgtgatctta 
agtttcatgt ctgtaaaatg agggtaagaa 
attagataaa gtagtgcctg tgaagacctt 
ccataaatgt taaattagaa taatggcagg 
gctgctgctg ctacaactac tatagtactg 
tttaaagtga ttttgagttc ctaggagcac 
ggtgtaatgg agttttgata gttgaaagag 
tgaagcagat tctaagtttc tcatccttta 
ctgggcagct tcagattatg tcagggagat 
gcagaaaggc actgcaacat atgggcattg 
ctgttgcagg gctcactagc tctactcaag 
ccacttggaa tttcttagta gaggagaacc 
ttaaaagaaa aactttaggc aaattaaatt 
tatgaattgg gcagcattca gaactgggag 
tctatagaca ggaaaaggaa gtgatgtaca 
tgccttatat gggcatggtg tgatgaggca 
tggtagactg tgactgactg aagcctggct 
tataaggata tgttgttagg ttgcagtttg 
ctcaggccaa atttagttta actatatgtt 
tagaggttta aacaaggaaa gggtttattt 
tgtagggttt gtacagtggc tacaagaggc 
ttcctgttcc atcatcctta gcctgtaact 
caggatggct gctccaggtg cagcactact 
aggaaagcca tctgggttct ctcctttaaa 
tccccttatg tatcaaccat gtgtatgtca 
cagccctggc. tgcaatggag agtgggaaat 
aaatgaaatg agacttccat taataaggaa 
ggatcaggga acttattaca ttgagagccc 
tggaattgag aatccccaca acgtctttat 
ttcagatgtt ggatttccta tatggggggc 
ttgtatcaac tggattttct ctcttcttct 
tgaaggtgta tgttctctcg cagaaggact 
gtaaggaacc cataagcagg aaacaggaca 
tgattaagat ctgggccgct ctccg'ctggg 
gcttgccttg gtctaggtgg acaaggat'tc 
ccagtaaatg ctgataggag agtggtgaag 
ggggagttat caagccagtt atcaatgagg 
ctggagccag tgcagaacac acatggtcac 
catttatcca ccaaccctct gtccttccta 
tccagcactt ccagctcacc ctcacccagc 
ctcaggcaga gagtggcagg tcttctctgc 
gagtactgtg gcctcctcca gtgcfctgact 
tggacagctc aggtgaacat' gaacccacct 
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tgactctttt ggccttttca gattctgggg 27060 
cctggctgaa gccttgggtg atcaccagag 27120 
tatcctgcag ttttcttggg gagatcaggt 27180 
ggtctttgaa ctttatttct accccacaat 27240 
ttggatttca agagaggaca cttgagtctt 27300 
ctcagggttt tgatacagta tctgtaaatt 27360 
atcttaaggg ccaattccaa tccattggta 27420 
attctaaggc tgcacctggg cttaaagaag 27480 
aagctaaaaa aaaaaaaaaa gagcactgca 27540 
aaaaaaaaaa aaagaaaaaa gaaagagcac 27600 
cagaccagga gagcaccacg aattttgccc 27660 
ccctgctctg acatactttt gttccatgat 27720 
cagtgtgggt gcccaagcct tggcactgat 27780 
ctggtgagtt tgggggattc tctgctctgg 27840 
tggcctcatc cataggagcg gttgtgtgga 27900 
tgattgattg attgtgtttg tctttatatg 27960 
gtatgtacat gctaattttt ttatttaata 28020 
cctccacatg gcataagtgt taagagcaca 28080 
ggcaagttaa ataacaattt cagaatctca 28140 
tacttccaac cataaaggat ttttgcaaga 28200 
aatatagtgc ctggcatatt tgtaagtgct 28260 
gttactacta ctattactgc tgctgctgct 28320 
tgactactac tactaataaa gttttgttat 28380 
tgggtattca agtcttaggt cattttggaa 28440 
gaaccatgaa tcatgcttat actgttgacc 28500 
gatgccacta gtatagtttt ctgacatgtt 28560 
aaaatactga atgtttgatt ttcccgggaa 28620 
ccataaacag attttatgga tggaccttgg 28680 
tatgattgat tctatcctga ctggattttg 28740 
ttgttatgag agcatcagtt atgattactg 28800 
tagcagaact ggtttgaaca tacagcaatt 28860 
tgctccaccc agcaaggtag gcaagcagta 28920 
aaacagcttg attggttgca gctgggcatt 28980 
ttttctttat atggatatag actgatcagc 29040 
gctgtgattg gctaagactt agctgtttgt 29100 
ctacatagga actcaaagta cagaggcagt 29160 
aagctgcagg tgacagaata cctccatcta 29220 
tttcctgtat aggcagctgg atgtaggcag 29280 
caggaggggt ctcagctctg tctcattctc 29340 
tcattcacat ggttggttgt cccatgatca 29400 
tctgtattcc cggattcgat ctatataccc 29460 
aagcattcct ggaagcccca cctgtcgact 29520 
cttgaccaac ccacttgtat gttgtttgac 29580 
acagtttttt caccaagtgc atggctgtcc 29640 
gaaaggaaag atggagatca ggaagctggg 29700 
ttggagtgaa ttctcttgca aatatgtccc 29760 
ctgttctttc tttatccatg agtttgggtt 29820 
atgtgagttc atcatcttcc ataatcaatg 29880 
caccagcctg gaggagaacc atctccagga 29940 
gaagaaaaat tcaagtttga aaatcctgaa 30000 
ataattgctg gcctttggaa ggggcatttc 30060 
ctaactcatg tgaggtggcc tggtagaaca 30120 
cagt'gcaagt tgtttatctg ggaggtggtc 30180 
tgagatgggg aagtgaaggt aaccaataaa 30240 
gaaattggag ctcagtactc tggggcactc 30300 
ctacccaacc. aatgggcaag aaagccatgg 30360 
tgttgatgtg cgctcatggg gcactgattc 30420 
tgaacatgct tctggggtca ggagaatggc 30480 
aagcagtggc tg'gggaggtg atgtgatggg 30540 
cagtggcttg ggacttgtgc cacaaagaga 30600 
agtgaccatc atgggtttgt cagggtgctc 30660 
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tctgaggctg atgccaaaat tcttatttca 
ccttttgctg gaggaaagtg gcatctgcct 
ctttagagac agacagacag acagctgcct 
tacccactct ggcgacactc atttgtgttg 
tcjcj aga aa a c acttccacta a tta ttt^GC? 
ccggatgtgt ctgagccaga tgccagcttt 
gcccattatc aaccaggtgt. ggatatggca 
ctccacttga ctcccatgga tgccaggcaa 
tcatcagcct tatttttcag catcctaaac 
gatatatctt ttataaaaaa gagaaatgcc 
ccaagagttg gttgagagcc caggcttgct 
cactttggga ggctgaggcg ggtggatcac 
caacatggag aaaccccatc tctactaaaa 
acctgtaatc ccatctactc aggaagctga 
gaggttgcca tgagccaaga tcacaccatt 
catctcaaaa aaaaaaaaaa ggatgagaaa 
ctggaaccag acagcctggg tcttacccct 
atgagtgcct cagttgcctc aagtgtaaat 
catgagcatt cactgagaga atgtagctaa 
aattgtggtt tcagaccatg aactttaaat 
taatcaaaat aggaaccatt aaaatcaaca 
attcctgtag cataaaaatt catgcttcgg 
gcatcctcct ggttgtggaa gcatttttcc 
tggtagtcag ttggctagag gtcaggtaaa 
aattcattca acttttgaag ctttggttgt 
aattggaccc tttctgttga cgaatgccgg 
attgacttgc cgagcatact tctcatatgt 
ggggatcaga ctagcagcag accaccagtg 
gcctttggga agtgctttgg agcttcttct 
ttgtataaaa tccacttttc atcgcacgtc 
ttgtgtagaa taagagaaga tgacacttca 
tcatgaggca cacacttatc gaggtttttc 
accatggaat ggtcgatgtt gagttctcaa 
gctctcaatt ggtcattgtc agcttctgat 
ctcttatctc cttcgcaaaa cttcttgaac 
cctgggccaa atgcattgct gatgttgtga 
aattcaaata agaaaattgc ttgaatttgc 
aataaatata aaataaacag aaagtattaa 
tgtgcattaa aatgatgtat agcataacca 
atggcaaatt tcaacaatgc aaaaactgca 
aataaatact ggcaattaca attggcattg 
aattgtggga aagggggagg acctggagtg 
aagagcaacc tgggaaacac atgactcctc 
cctccctgtt gtcagctacc tcatatgttc 
ccccctgaaa atagaaatat tactgctcat 
tagtccgttt tcatgctgat gataaagata 
gagttttatt gaacttacag ttccacgtgg 
tgaaaggcac atctcacatg gcagcagaca 
ctttttaaaa ccatcagata tcatgaaact 
caattacctt ccactgggtc gctcccacaa 
acacagccaa accatatcaa gtactgtgca 
cttcccagca agcagagtgt ggggaggtaa 
ggacccatgc cacaaggaga tggatggtgg 
caatttagat tcttatgctc gatggcacgg 
gagattggga ctaatttgct cgagatcaaa 
aggatgtcta gcactaaaat gcaggtactt 
tttgataaac tcatctagtg aatggaagag 
cctttgttga tgagctcatt gggaatctca 
tgggcttcag tagactggct aactcctgca 
aaccaagaat ccttgaagct caccattgta 
tcacctacct aggggcagaa gccctcctgc 
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agtagacctc aggaacccca tcagatggct 30720 
aggcaaatgt ggtcctagga aaacgcttgc 30780 
ctgtgagtgc cagctttgct gccaggctgc 30840 
ctttcacaag ctaggaagtt tccaaatatt 30900 

«,yyuuui,yyu ^ i_ y y y a a y i, u y ij ij ij c„ y a « y i_- jy?UU 

gcactgaggg tcggcctttg ggaataccaa 31020 
ggtttgtctt ccctccttgt cacagcctta 31080 
tgaggctggg gttggtccca tgccaccctg 31140 
tatatcatcc cccacaaaaa ttgaacttct 31200 
tacatctttc ttttccagga ttagtttctg 31260 
gggtgcagtg gctcacacct gtaatcccag 31320 
ctgaggtggg gagttccata ccagcctgac 31380 
atacaaaatt agccgggcgt ggtggcatac 31440 
ggcaggagaa tcacttgaac ctgggaggtg 31500 
gcaccctaga ctggacaaga gagaaacttc 31560 
aataataatt taaaaaaaag agtccaggct 31620 
gctccaccat taccagccag ttcttcttgg 31680 
ggagataatg gctggacctt cattataggc 31740 
caaaagtgag ttgtaggttg gagcaaaagt 31800 
tattataact aggctaaaat acatctttat 31860 
catttttgcc aataagaaat aagtttgttt 31920 
gattcaacaa actcttggaa agcattttct 31980 
tgcagaaagt tgtcaagatt cttgaagaaa 32040 
tatggcggat gaggcaaaac ttcatagtcc 32100 
gtgacatgca gtccggttgt tgtcgcggag 32160 
ttgcaggtgt tgcagttttc agtgcatctc 32220 
aatggtttcg cagggattca gaaagctgta 32280 
accatgacct tttttttttg gtgcgaattt 32340 
cggtccaacc actgagctag tcattgccag 324 00 
acaatcagat caagaaatgg ttcgctgttg 32460 
aaatgacgat tttcttggtt ttcactcagc 32520 
acctttccaa tttgcttcaa atgctgaatg 32580 
gtagttgtaa gaaaatcagc tttgatgatt 32640 
ggcctgccag tacactcctc atcttcaagg 32700 
caccactgca ctatacgtta gttagcagtt 32760 
gttgtctccg ctgctttaca acccattttg 32820 
tttttgtcta acatcatttt catagtctaa 32880 
gtcattagca aaaaatcata aagtgagaat 32940 
catttattta agaatgtatt ccaatatcaa 33000 
attacttttg caccaatcta atagaagttc 33060 
ccttagggtc aacttgtaag acattcctga 33120 
gacattattg gaaggcaaag ctgtaaccaa 33180 
tgttgctgtc cctggcccta tcctgtctcc 33240 
tctaatctct gtctctgtgc cctcaaagac 33300 
tggttatttt ctatcaatta agtactgtat 33360 
tacccaagac tgggcacttt atgaaagaaa 33420 
ctggggaggt ctcacaatca tggctgaagg 334 80 
ggagaagagg gcttgttcag ggaaactccc 33540 
tatttactgt aatgagaaca ggatgggatt 33600 
cacgtgggaa ttcaagagat ttgggtgggg 33660 
agtgttttag gcatgcagag agtggtgggt 33720 ' 
tgggggactg gtggctgact taatggccca 33780 
a'tgtgaatag gagcctgctt acacccatca 33840 
gtactctttt aggcccattt taccaatgag 33900 
aaagaagtgg tgtaggtggg atttaaaccc- 33960 
aaccactatc ctaagggagt ggctacttaa 34020 
agacggttac atttcactga tggtactgag 34080 
gacatgagca ggatgtgtct aagggacagg 34140 
gtctctttaa ctggacagtt tcaagaggaa 34200 
tcttcttttc caggttgtcc aataactgca 34260 
aggcccttga aaggaatgac accatcctgg 34320 
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aagtctgqta aqgcccctgg qcaggcctgt tttagctctc cgaacctcag tttttctatc 34380 
tgtaaaatgg ggtgacggga gagaggaatg gcagaatttt gaggatccct tctgattctg 34440 
acattcagtg agaatgattc tgcatgtgaa ggatctgatt ctctgtctaa gaaagaagtc 34500 
tttacctctt taagtaggga gcaatgattt catttttaaa ccttgactat ttattcagca 34560 
acttctctgc LctatyagaU agtgtaggaa tggggatgcg gttgaagaat gaaaagaaaa 34620 
gtcagctccc gccctcctag aaattgcatc tgccttcaca ggtcaaggat attggatcag 34680 
accttctgcg gttctgaatg gagattacac aggttaggag caggttgcac agtgtttcca 34740 
attctctata attaaagcca tagactttca tgtattgaaa aaagcaagaa ttgcattctt 34800 
gacagattct ttcattgcct taaaaagaat gactagcctt gggagtctgg gcagctgggt 34860 
ccagtgttgt agactttctc tctgctgagc cacagcttca aagatttgtc cttcttgttt 34920 
ccagggatct atttctcaga caataagtaa aggctttccc tggcctaatg tgctgtaagt 34980 
gaatgctact atatatgttc caggcactgg gctagagact aatatttaaa agccaggaaa 35040 
tttcctatag aaaatctata tctcagggtt ttctcaaaag agctgggaac tctggatgcc 35100 
cattcatgat tccagtagtt aaccagagta caagaagggc tgagtcttct cagatgggca 35160 
aacccactct ggctgactgc agatccacca agcctattgt cttagaccag gaccctttgg 35220 
caactcattc ccataagcct gtgacccttg ctttaaatat gcaggccttg tcttctctca 35280 
aaaagcacat caaggctgca gcgaatgcag atatcaaatg atgaagttaa aaacaaaagc 35340 
tttgctgggc gtggcagctc acacctgtaa tcctagcact ttgggaggct gaggcaggag 35400 
gatcacttta ggccagaggt tcaacaccag accttgtctc tcaaaaaata aaaaattcag 35460 
ctgggtgcgg tgtagttcct agccacttgg gaggctggga tggaaggatc ccttgaaccc 35520 
aggagttcaa ggctgcagtg ggccatgatt gcatcactgc acaggcgaca gaattagatc 35580 
ccatctctta aaaaaataaa aaatttaaaa gtgacttcaa aaatctatgc tgtgatggag 35640 
agatttttcc ttctgtatga ttgtgatagc tctgtggcct atgacgtcat caggttctgg 35700 
gcaaagtgta ggttttctgt ttctttgttt ttgaaaccat tgcacagtcc taagaaacat 35760 
cacattctgg gtcctgggca ccagccaaca tgaggtgagg gcaccagggt ttgctcattg 35820 
cattcttgac agattctctt attgccttaa aaagaatcac tggccttggg gagtctgtgg 35880 
ctggctgggt gcagtgttgt ggactctctc tgcagagtca tggagccttg ttcagaatgc 35940 
ttcctgagct gccctggttg gccaagggta aaaacagccc tgacttccct gcaagaaaca 36000 
ctgcagctgg gccagagagt cagcccatcc caggcatggg tttaaaaagt ggaggctttt 36060 
gtttgaaagc cctgctctaa ttttgtcctc actcaaacct ctgttcactt gatctgcttt 36120 
aggctccgag ggaacacttt ctctctagag gaggttgaca agctcggctg cagggacacc 36180 
agactcttgc tttgaagtct ccgggaggat gttcgtctca gtttgtttgt gagcaggctg 36240 
tgagtttggg ccccagaggc tgggtgacat gtgttggcag cctcttcaaa atgagccctg 36300 
tcctgcctaa ggctgaactt gttttctggg aacaccatag gtcaccttta ttctggcaga 36360 
ggagggagca tcagtgccct ccaggataga cttttcccaa gcctactttt : gccattgact 36420 
tcttcccaag attcaatccc aggatgtaca aggacagccc ctcctccata gtatgggact 36480 
ggcctctgct gatcctccca ggcttccgtg tgggtcagtg gggcccatgg atgtgcttgt 36540 
taactgagtg ccttttggtg gagaggcccg gcctctcaca aaagacccct taccactgct 36600 
ctgatgaaga ggagtacaca gaacacataa ttcaggaagc agctttcccc atgtctcgac 36660 
tcatccatcc aggccattcc ccgtctctgg ttcctcccct cctcctggac tcctgcacac 36720 
gctccttcct ctgaggctga aattcagaat attagtgacc tcagctttga tatttcactt 36780 
acagcacccc caaccctggc acccagggtg ggaagggcta caccttagcc tgccctcctt 36840 
tccggtgttt aagacatttt tggaagggga cacgtgacag ccgtttgttc cccaagacat 36900 
tctaggtttg caagaaaaat atgaccacac tccagctggg atcacatgtg gacttttatt 36960 
tccagtgaaa tcagttactc ttcagttaag cctttggaaa cagctcgact ttaaaaagct 37020 
ccaaatgcag ctttaaaaaa ttaatctggg ccagaatttc aaacggcctc actaggcttc 37080 
tggttgatgc ctgtgaactg aactctgaca acagacttct gaaatagacc cacaagaggc 37140 
agttccattt catttgtgcc agaatgcttt aggatgtaca gttatggatt gaaagtttac 37200 
aggaaaaaaa attaggccgt tccttcaaag caaatgtctt cctggattat tcaaaatgat 37260 
gtatgttgaa gcctttgtaa attgtcagat gctgtgcaaa tgttattatt ttaaacatta 37320 
tgatgtgtga aaactggtta atatttatag gtcactttgt tttactgtct taagtttata '37380 
ctcttataga caacatggcc gtgaacttta tgctgtaaat aatcagaggg gaataaactg 37440 
fct 9 37443 



<210> 4 
<211> 1315 
<212> ADN 

<213> Homo sapiens 
<220> 
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<221> CDS 

<222> (117) . . (1116) 
<400> 4 

cgatcagaag caggtcacac agcctgtttc ctgttttcaa acgnngaact tagaaagtgg 60 

cagcccctcg gcttgtcgcc ggagctgaga accaagagct cgaaggggcc atatga cac 119 

His 

1 

tec tec egg ace cct gga cac aca cag ccc tgg aga ctg gag cct tgg 167 

Ser Ser Arg Thr Pro Gly His Thr Gin Pro Trp Arg Leu Glu Pro Trp 

5 10 15 

age atg gca agt cca gag cac cct ggg age cct ggc tgc atg gga ccc 215 

Ser Met Ala Ser Pro Glu His Pro Gly Ser Pro Gly Cys Met Gly Pro 

20 25 30 

ata ace cag tgc acg gca agg ace cag cag gaa gca cca gee act ggc 263 

lie Thr Gin Cys Thr Ala Arg Thr Gin Gin Glu Ala Pro Ala Thr Gly 

35 40 45 

ccc gac etc ccg cac cca gga cct gac ggg cac tta gac aca cac agt 311 

Pro Asp Leu Pro His Pro Gly Pro Asp Gly His Leu Asp Thr His Ser 

50 55 60 65 

ggc ctg age tec aac tec age atg acc acg egg gag ctt cag cag tac 359 

Gly Leu Ser Ser Asn Ser Ser Met Thr Thr Arg Glu Leu Gin Gin Tyr 

70 75 80 

tgg cag aac cag aaa tgc cgc tgg aag cac gtc aaa ctg etc ttt gag 407 

Trp Gin Asn Gin Lys Cys Arg Trp Lys His Val Lys Leu Leu Phe Glu 

85 " 90 ~ 95 

att get tea get cgc ate gag gag aga aaa gtc tct aag ttt gtg gtg 455 

lie Ala Ser Ala Arg lie Glu Glu Arg Lys Val Ser Lys Phe Val Val 

100 105 ~ 110 

tac caa ate ate gtc ate cag act ggg age ttt gac aac aac aag gec 503 

Tyr Gin lie He Val He Gin Thr Gly Ser Phe Asp Asn Asn Lys Ala 

115 120 • 125 

gtc ctg gaa egg cgc tat tec gac ttc gcg aag etc cag aaa gcg ctg 551 

Val Leu Glu Arg Arg Tyr Ser Asp Phe Ala Lys Leu Gin Lys Ala Leu 

130 135 140 J 145 

ctg aag acg ttc agg gag gag ate gaa gac gtg gag ttt ccc agg aag 599 

Leu Lys Thr Phe Arg Glu Glu He Glu Asp Val Glu Phe Pro Arg Lys 

150 155 160 

cac ctg act ggg aac ttc get gag gag atg ate tgt gag cgt- egg . cgc 647 

His Leu Thr Gly Asn Phe Ala Glu Glu Met He Cys Glu Arg Arg Arg • 

165 17 0 175 

gec ctg cag gag tac ctg ggc ctg etc tac gec ate cgc tgc gtg cgc 695 

Ala Leu Gin Glu Tyr Leu Gly Leu Leu Tyr Ala* lie Arg Cys Val Arg 

180 185 ' ' ' 190 

cgc tec egg gag ttc ctg gac ttc etc acg egg ccg gag ctg cgc gag 743 

Arg. Ser Arg Glu Phe Leu Asp Phe Leu Thr Arg Pro Glu Leu. Arg Glu 

195 200 205 
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get ttc ggc tgc ctg egg gee ggc cag tac ccg cgc. gee ctg gag ctg 791 
Ala Phe Gly Cys Leu Arg Ala Gly Gin Tyr Pro Arg Ala Leu Glu Leu 
210 215 220 " 225 

ctg ctg cgc gtg ctg ccg ctg cag gag aag etc acc gec cac tgc cct 839 
Leu Leu Arg Val Leu Pro Leu Gin Glu Lys Leu Thr Ala His Cys Pro 
230 235 240 

gcg gec gec gtc ccg gec ctg tgc gec gtg ctg ctg tgc cac cgc gac 887 
Ala Ala Ala Val Pro Ala Leu Cys Ala Val Leu Leu Cys His Arg Asp 
245 250 255 

etc gac cgc ccc gec gag gec ttc gcg gee gga gag agg gec ctg cag 935 
Leu Asp Arg Pro Ala Glu Ala Phe Ala Ala Gly Glu Arg Ala Leu Gin 
260 265 270 

cgc ctg cag gec egg gag ggc cat cgc tac tat gcg cct ctg ctg gac 983 
Arg Leu Gin Ala Arg Glu Gly His Arg Tyr Tyr Ala Pro Leu Leu Asp 
275 280 285 

gec atg gtc cgc ctg gec tac gcg ctg ggc aag gac ttc gtg act ctg 1031 
Ala Met Val Arg Leu Ala Tyr Ala Leu Gly Lys Asp Phe Val Thr Leu 
290 295 300 A 305 

cag gag agg ctg gag gag age cag etc egg agg ccc acg ccc cga ggc 1079 
Gin Glu Arg Leu Glu Glu Ser Gin Leu Arg Arg Pro Thr Pro Arg Gly 
310 315 320 

ate acc ctg aag gag etc act gtg cga gaa tac ctg cac tgagccggcc 1128 
lie Thr Leu Lys Glu Leu Thr Val Arg Glu Tyr Leu His 
325 330 

tgggaccccg cagggacget ggagatttgg ggtcaccatg gctcacagtg ggctgtttgg 1188 

ggttcttttt ttttattttt ccttttcttt tttgttattt gagacagtct tgctctgtca 1248 

cccagactga agtgcagtgg ctcaattatg tctcactgca gcctcaaact cctgggcaca 1308 

agcaatc 1315 



<210> 5 
<211> 334 
<212> PRT 

<213> Homo sapiens 
<400> 5 

His Ser Ser Arg Thr Pro Gly His Thr Gin Pro Trp Arg Leu Glu Pro 
1 '5 10 15 

Trp Ser Met Ala Ser Pro Glu .His Pro Gly Ser Pro Gly Cys Met Gly 
20 25 30 

Pro He Thr. Gin Cys Thr Ala Arg Thr Gin Gin Glu Ala Pro Ala Thr 
35 40 45 

Gly Pro Asp Leu Pro His Pro Gly Pro Asp Gly His Leu Asp Thr His 
50 55 60 

Ser Gly Leu Ser Ser Asn Ser Ser Met Thr Thr. Arg Glu Leu Gin Gin 
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65 



70 



75 



80 



Tyr Trp Gin Asn Gin Lys Cys Arg Trp Lys His Val Lys Leu Leu Phe 
85 90 95 

Glu lie Ala Ser Ala Arg lie Glu Glu Arg Lys Val Ser Lys Phe Val 
100 105 110 

Val Tyr Gin lie He Val He Gin Thr Gly Ser Phe Asp Asn Asn Lys 
115 120 125 

Ala Val Leu Glu Arg Arg Tyr Ser Asp Phe Ala Lys Leu Gin Lys Ala 
130 135 140 

Leu Leu Lys Thr Phe Arg Glu Glu He Glu Asp Val Glu Phe Pro Arg 
145 " 150 155 160 

Lys His Leu Thr Gly Asn Phe Ala Glu Glu Met He Cys Glu Arg Arg 
165 170 175 

Arg Ala Leu Gin Glu Tyr Leu Gly Leu Leu Tyr Ala He Arg Cys Val 
180 185 " 190 

Arg Arg Ser Arg Glu Phe Leu Asp Phe Leu Thr Arg Pro Glu Leu Arg 
195 200 205 

Glu Ala Phe Gly Cys Leu Arg Ala Gly Gin Tyr Pro Arg Ala Leu Glu 
210 215 220 

Leu Leu Leu Arg Val Leu Pro Leu Gin Glu Lys Leu Thr Ala His Cys 
225 230 235 240 

Pro Ala Ala Ala Val Pro Ala Leu Cys Ala Val Leu Leu Cys His Arg 
245 250 255 

Asp Leu Asp Arg Pro Ala Glu Ala Phe Ala Ala Gly Glu Arg Ala Leu 
260 265 270 

Gin Arg Leu Gin Ala Arg Glu Gly His Arg Tyr Tyr Ala Pro Leu Leu 
275 280 " 285 

Asp Ala Met Val Arg Leu Ala Tyr Ala Leu Gly Lys Asp Phe Val Thr 
.290 295 300. 

Leu Gin Glu Arg Leu Glu Glu Ser Gin Leu Arg Arg Pro Thr Pro Arg 
305 310 315 320 

Gly He Thr Leu Lys Glu Leu Thr Val Arg Glu Tyr Leu His 



<210> 6 
<211> 8135 
<212> ADN 

<213> Homo sapiens 
<220> 

<221> exon 
<222> (1) . . {161) 



325 



330 
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<220> 

<221> exon 

<222> (3812) . . (3950) 



<220> 

<22l> exon 

<222> (5426) . . (5577) 
<220> 

<221> exon 

<222> (7273) . . (8135) 



<400> 6 

cgatcagaag caggtcacac agcctgtttc ctgttttcaa acggggaact tagaaagtgg 60 

cagcccctcg gcttgtcgcc ggagctgaga accaagagct cgaaggggcc atatgacact 120 

cctcccggac ccctggacac acacagccct ggagactgga ggtcagtatt tgatcccaag 180 

ctcagctgtc ctctgcctgc tgtggcctga gtccccttct cctggggccc tgcctggcac 240 

ctgctggggg cagggtggga gggggaagag ttagtgacag ccgctgtgtc tggagctctc 300 

cttagcacac tgaggcagag gaagggacag ctcctggacc ttccatcacc tccattcctt 360 

ttgaaatgct aggcgcttgt acaacccatc ttgggcctgg agaataagtc accacacctg 420 

tgtttctcaa aagaacagtg tcagggaacc cctgcctcag cacagcctta gaggactcat 480 

ggaaaatgca gaatccaggc ctgttcaatg gcaccttcct atgttagcag ccaggaaacc 540 

tgctcttgga caagcccctg ggatcccacc cccaccccac caggggattc ttacacacac 600 

tgggttggga gcccctggct ttggcaaggc ttctcaggtg agcgtccagt tgttggaggg 660 

tacccaccct ttccccaaga gaggcagcca cacatccaac atcctgggat ctctgtctcc 720 

cagcgtgggc catgtgcttt atttcacccc ctagaggctc atcccccatg aaaagtcctc 780 

cgcaggccct cagaaagata gtgtggcctc tgtgtgccca gcagaagaag gactggactt 840 

ggcagtcagc tcttggagag ggggtggtta ggacacctgg ggacaggagg aggagaatga 900 

ctgtctgtgc acacacggct ggaaggtaca ggaggctggg aagctgctct gtcccctggg 960 

ccaactacag gcccccaggc caacagcaac aacactttta gtattttgtt ataaagtcaa 1020 

gaaatctttg ctacagaggg tgaggagagg gaaggaaagg gccatggaac cgtctatgtg 1080 

gctatcccca gagagctttt agagtgacag gattgctttc ccatttcaca gatgaggaaa 1140 

ctgaggcctg gagagggatg ggaagctacc caaggcccca tggatacacc agtgcacaac 1200 

tctttccttc cccctcctct ttaaatgggt gattcccaat gaaacctgta agagacaacc 1260 

ataagggagc tgactgtggc tgctgaattt gattttattc taaggcctgg ttttataatc 1320 

agctttctca gtctttactg gagtgtcaag ccgaggcatc atttctaggg tcttacaggg 1380 

tctctgggcc aatagtgccc tgcttctgac ctggagccag ctgcctggtc atgaaagcag 1440 

atctgcaaag gctggggccc ctgaggccaa ggccactcgc catcacccat tttacagaag 1500 

tgctgagcat aggagtgccc tgggccccca agaatcccag ccaccaagaa tcacgtaaac 1560 

catccactgt ctcacttagg caccagtcag aatgtaggga acccacccct agtcatccat 1620 

catcttatca acaggacggg gcttgtagcc acatttatca ggtagggaaa ctgaagccta 1680 

gagatattaa agcacttgct taaggacaca cggttggtca ggatggaagg cgatgtctcc 1740 

tgactccctg acaggcacaa gagacaagcg agaggtgccc gtgacggcat gctcaagaac 1800 

gtgcagccct gggccagcca ggcccctgct ccgtgcctct gtttgcccat ctgtaaaagg 1860 

tgaggttgga tcgagggtcc ctgagggccg cccactggat ggctgtgcag agccaaacgg 1920 

agaaggcccc agggttcctt tcacccgaca cagcaagcac ttccccctga agtgcaggct 1980 

ccaggcccca gctgacctcc cctctcccag gccagcggct ctcacccctg gagcaaggga 2040 

caggcgctgg ctgtgctcag ggacatgcat gactcccgcc cccatctgtg ctcagggggt 2100 

gccagggagg cactggctct atctttctct aggccgtagt cagcccaggg gttcagacca 2160 

agagcccaga atccaacaga tcagagttca agtcccagct ctacctctat gttccactgg 2220 

cagcttccte aggtcatttg caccttcctt gtcttgaatt tccatgccta accagtatac 2280 

cagctactcc ctccagccga tctaatgttt taattgtccc tttctctaag ttgtctcaaa 2340 

catttgtaat tctattccaa tccaccttaa tttagtcatt tatttcacaa atatttctgg 2400 

aaacatctag cacttaacag acactaaaag cgggggtact acacagtccc tgggatggac 2460 

agggccctga gctgaggctt cagagtctgc ctgactgaat cctcacccca gccttgtgaa 2520 

cgtgggttct gttattatcc ccaatttata ggaaacagaa gcacagagaa gttgagtcac 2580 

ttgccagcta ccaggtcatc ccttccactt atccgggtca cagacagagt tattatgtaa 2640 

accagatccc agctgcctgt tctccctccc tgagtaaggt ggagagaatt ctgaagtcag 2700 

cccagcctgg gtctgtatcc tgcccaccac tcaccagctc ctcatctttg gcaactctaa 2760 

gtctcagttc ccttatcata aaagggagat gtaaacagtc ctgagtgcag acagtgttca 2820 

ggttagtgca agagtgtgtg ctgggtgtga agtgcacagc cagcacgtca caagcactgg 2880 
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agacaaattc agctttgctt gttgcgcaca 
tttctcatct gttatgtggt ggtaatgata 
gctatggaga acctagatgg gtatgaagtg 
atagatagat tattgattga ttgatcgata 
aacactgacc tttctttttt tctttttgag 
gcagtggcat catcatagct cactgcagcc 
tctcagcctc ccaagtagct gggaccacag 
tttctagaga cggggtctca ctacattggc 
gatccttcta acccagcctc ccaaagcgct 
cttgaacact gagacttcat tcgcatgtgt 
catctttctt tcaagtaatc actaaagcca 
actctgagca atacgtaagg atcacctcaa 
gtcttctctg ccttggagta acctgcccag 
cagctgggag agtggggaag gttgagccgt 
gagggggcat gacacagctc ctaggcaccc 
ggtcctcact gttctctttt tcctctggca 
tgggagccct ggctgcatgg gacccataac 
accagccact ggccccgacc tcccgcaccc 
ggcttgagac tcggtctggg ggagaggtct 
tttgggggat gcagcaagag gcccgggcag 
cactgagaca cagatctagt gcaagctgtt 
aggggagtgg gaatggaagg aaagggcaag 
ggcacggtag gtggctgaag ctcaacccca 
atctctgggt tgtcctatcc taggggtgag 
ctgcatagga gaagggacgc tcctgggcct 
agccagtggc atgttctgga aaagtgggtg 
gacagcatct gctgtagtgc catctcctgg 
gccctattca atacctgctc tgttcctggc 
ggaagaaatc aaacactgca ctagtcctga 
cagttacacg tgccacgaga aataaataaa 
gaagctctta ctctaatgcc aaggggcatt 
gtagactgga aaagggctgg gacccatgcc 
ttcttaagaa cctcagagtg gcgcagggct 
tttccaggcg tggaaataga gggttggatg 
cccggcatgt gggcagttag atgagaaggt 
ataacatcct cctcactgcc tcccctgccc 
agtcacgaag tcagggctgc agggagcaca 
cagagcaggg atttcaccat ggccaatcta 
gcaccgcatt ccaaagctgt gaaaccactt 
ggtagggtgg attctgccag gctgggcaca 
taaatggcgg ggtgggagag agggatattc 
tcagatagac ccagccatct ccccaagccc 
atccttaagg gtgttgtcct tccagacaca 
accacgcggg agcttcagca gtactggcag 
ctgctctttg agatcgcttc agctcgcatc 
agcagagatt gggaaatggt ggagcctctt 
gtcttgtaga gcctcaggtt tcccaactat 
tcttctggag aaaatggcca aagagcaaga 
aggattcgaa ccatataagt catatttctt 
cccatcttat caggtgtcag tcacctgtgt 
tatctgttct aattattatt acttattttt 
tgaagcacat ttatttcaa.a gagaaatacc 
aagcaaaagt aacatactag aaaagtcgat 
tgctgttatt aaattctagc tggttactgt 
gctcctctcc ctgttagaat ggaattttag 
agagccacac ttcatccttc tccttcactt' 
cactgaatgc caatggcatg ccgggcacag 
taatcctcac tgggtgaggt aggcactatg 
agactcggag aggttaaatt actcatctaa 
aattacaacc catgcaatct ggctctggag 
atataattgc ccgtaatcag gattctcttg 



ctcaccagct gcgtgacttt agacctcagt 2940 
gacttttgtg agcattaaac tagattaggg 3000 
ggtataataa gctatcagtt aattttgctg 3060 
gaagattcat accagtatct acctgctctg 3120 
atggtcttgt tctgtcaccc agactggagt 3180 
tcagtctctt gggcttaagg gatcctcctg 3240 
gcgtgcatcc tggataattt ttttttattt 3300 
caggctggtc tcaaattcct gggctcaagt 3360 
gggattacag gcatgagtgg ccatgttcaa 3420 
aacataaaac tgagtatcta gacaagccag 3480 
atacttttac ttgaaatcat ctcatttaaa 3540 
taacatatgg atcatcgcaa taggtgaagg 3600 
caaaggggca gacccagatt tgggatctgg 3660 
ggggcccttg tcattccctc tgcctgccag 3720 
caggagccac cgggaacccc aactggagtg 3780 
gccttggagc atggcaagtc cagagcaccc 3840 
ccagtgcacg gcaaggaccc agcaggaagc 3900 
aggacctgac gggcacttag gtgggcttga 3960 
gaagacattc aaagtacaaa tgtgggtcac 4020 
ctcttgtaac ttgggttatc ccaaaacaga 4080 
tatccgggag acggtcctag gagtcatggc 4140 
aggccagggc aggacatcag tgaacagata 4200 
gcgggggtct tctgggagac cctggaacat 4260 
gaagccgggc tgttatctac cagtcctgcc 4320 
gctgctatgg ccctagaaag ccctcaggga 4380 
ccaagagggc acggtccagc ctggggcatg 4440 
aacagatctt ttcttacagt ccttcgagat 4500 
cctatgcagg gcactggaga aacagaaaca 4560 
ggtttggtag agaaacagat cagtgagaaa 4620 
taaaatgaaa aacctgtagg aacaaggtgg 4680 
tgcagtgatg tgggggctgg gtcttgaagg 4740 
ctttgcaata aaatgcacaa ttatttgtgc 4800 
caagtggggt ttaagaaaca ctgtgttcgt 4860 
caaggcagag cagtgcacgt ccgagaagag 4920 
taggaagggc cagcccgctg aggctggaac 4980 
actgatgtgt gctcaaggag tcgtggcaac 5040 
gaaacacaca agccaccgtc tctgcttgtc 5100 
cagaccagaa gtggacgatg caaagtgccc 5160 
gggggtgatg ggctatttgg gattgtcggt 5220 
gaggtctgtc tgatgcccca attgggccta 5280 
aatactcttc aggagttctg atatgccatc 5340 
atgcctcgga agtgcactga cagggtgcag 5400 
cacagtggcc tgagctc.caa ctccagcatg 5460 
aaccagaaat gccgctggaa gcacgtcaaa 5520 
gaggagagaa aagtctctaa gtttgtggta 5580 
tcactctgct tccttcctgg ccctgaataa 5640 
gaaatgggtc aacacactaa ctcacagctt 5700 
tttcaggctc agcacctgct agggtctgtg 5760 
ggtcccaaga aggaaatagc ccagtttaat 5820 
cctttcttca ccaattttgc catatcactg 5880 
ttctttaaat tggatcactt tttaaaaaca 5940 
ttaaatggaa aaccaatatc acatggcaca 6000 
acaaggaaag tcaatacaag gaaagctatg 6060 
ggcttcggga aagccctgtg cctgggagct 6120 
cttgtgttaa gggatgttaa agactgccta 6180 
acctgggacc gggataaata acatagctac 6240 
ctccatgtgg tttcagtgca ttaactcatt 6300 
cctatccttg ttttatgaat gagaaaagtg 6360 
aaccacacag ctagac'catg gtagggctat 6420 
tcagatgcat gggttataat tgcccttaat 6480 
aaagatgatt gaaaaggatt gattttctta 6540 
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ccatataacg gcatcaccag tgtacctaaa tgatgttata ttgtacgtaa aactaattcc 6600 

caagtgtgaa acatttggaa aacacagcat ctcagttcag aaaacagagg cccagtttta 6660 

gcaagtaaag ccaagaggga ccccagcagc ctgcagggca ggaccctctg ccctttctcc 6720 

tcccagatgt ccccaccttg ctgtgttgtt gttccagggt tgactcagct gatgccaata 6780 

gcaatttaaa acagaattgg gccaggtgca gtgyctcalg cctyLaatcc cagcactLUg 6840 

ggaggcccag gtaggaggat cgcttgagcc caggagttgg agaccagcct gggcaacaca 6900 

gccagacccc atcttttaaa aagaatcaaa aaatctgcca ggtagtgggt gtgcctgtag 6960 

tcccagctac tcaggaggct caggtgggca ggtcaattga gcccataagt tcaaggttgc 7020 

agtgaggtat gatcgcatca ctgtactcca gcctgggtaa cagtgcgaga ccctgtctct 7080 

aaaaataaat aaataaataa ataaataaat aaataaacaa acaaacaaac aaacaaacaa 7140 

tcaattgcat ataaggatcg cccgttttca gggcatgctt tacaccggcc tggttaactt 7200 

tactctgggt gtgctccgtc cgccgcagcc cccgccggga ggtggccaca gctctctctg 7260 

gttgcgccct aggtgtacca aatcatcgtc atccagactg ggagctttga caacaacaag 7320 

gccgtcctgg aacggcgcta ttccgacttc gcgaagctcc agaaagcgct gctgaagacg 7380 

ttcagggagg agatcgaaga cgtggagttt cccaggaagc acctgactgg gaacttcgct 7440 

gaggagatga tctgtgagcg tcggcgcgcc ctgcaggagt acctgggcct gctctacgcc 7500 

atccgctgcg tgcgccgctc ccgggagttc ctggacttcc tcacgcggcc ggagctgcgc 7560 

gaggctttcg gctgcctgcg ggccggccag tacccgcgcg ccctggagct gctgctgcgc 7620 

gtgctgccgc tgcaggagaa gctcaccgcc cactgccctg cggccgccgt cccggccctg 7680 

tgcgccgtgc tgctgtgcca ccgcgacctc gaccgccccg ccgaggcctt cgcggccgga 7740 

gagagggccc tgcagcgcct gcaggcccgg gagggccatc gctactatgc gcctctgctg 7800 

gacgccatgg tccgcctggc ctacgcgctg ggcaaggact tcgtgactct gcaggagagg 7860 

ctggaggaga gccagctccg gaggcccacg ccccgaggca tcaccctgaa ggagctcact 7920 

gtgcgagaat acctgcactg agccggcctg ggaccccgca gggacgctgg agatttgggg 7980 

tcaccatggc tcacagtggg ctgtttgggg ttcttttttt ttatttttcc ttttcttttt 8040 

tgttatttga gacagtcttg ctctgtcacc cagactgaag tgcagtggct caattatgtc 8100 

tcactgcagc ctcaaactcc tgggcacaag caatc 8135 



<210> 7 
<211> 16 
<212> ADN 

<213> Homo sapiens 
<400> 7 

ctgggtgcga ttgctc 16 



<210> 8 
<211> 16 
<212> ADN 

<213> Homo sapiens 
<400> 8 

ccaggcccca tgacag 16 



<210> 9 
<211> 25 
<212> ADN 

<213> Homo sapiens 
<400> 9 

tggtcccggc ccaatcccaa tgctt 25 



<210> 10 
<211> 28 
<212> ADN 

<213> Homo sapiens 
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<400> 10 

ttcctcatgt ataaattggg tgtggcca 



28 



<210> 11 

<211> 25 

<212> ADN 

<213> Homo sapiens 

<400> 11 

acagagtgag gaccccatct ctatc 25 

<210> 12 

<211> 25 

<212> ADN 

<213> Homo sapiens 



<210> 13 
<211> 22 
<212> ADN 

<213> Homo sapiens 
<400> 13 

agtccccgag accagggcaa ac 22 

<210> 14 
<211> 23 
<212> ADN 

<213> Homo sapiens 



<210> 15 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 15 

ctctccccat agaaggcatc 20 

<210> 16 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<400> 12 



tccaactgct gggattacag gcaca 



25 



<400> 14 

tccatttctg cagtacacat gca 



23 



<400> 16 

ggatagagac gttctcttaa 



20 



<210> 17 
<211> 20 
<212> ADN 
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<400> 17 

caggctgaat gacagaacaa 



20 



<210> 18 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 18 

attgaaaaca actccgtcca 20 

<210> 19 
<211> 25 
<212> ADN 

<213> Homo sapiens 



<21<0> 20 
<211> 21 
<212> ADN 

<213> Homo sapiens 
<400> 20 

ggctcagttc ctaaccagtt c 21 

<210> 21 

<211> 20 

<212> ADN 

<213> Homo sapiens 



<210> 22 
<211> 20 
<212> ADN 

.<213> Homo sapiens 
<400> 22 

tgaatcttac atcccatccc 20 

<210> 23 

<211> 17 

<212> ADN 

<213> Homo sapiens 



<400> 19 

atactcactt ttagacagtt caggg 



25 



<4 00> 21 

agtcagtctg tccagaggtg 



20 



<400> 23 

gatcttccca aagcgcc 



17 



<210> 24 
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<211> 17 
<212> ADN 

<213> Homo sapiens 



<400> 24 

tcccgtcagc caagcta 



17 



<210> 25 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 25 

aagcttgtat ctttctcagg 20 



<210> 26 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 27 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 27 

cctccataat catgtgagcc 20 

<210> 28 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 29 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 29 

ggatgcctgc tctaaatacc 20 

<210> 30 
<211> 19 
<212> ADN 

<213> Homo sapiens 



<400> 26 

atctaccttg gctgtcattg 



20 



<400> 28 

aatctcccca actcaagacc 



20 



<400> 30 

cccaggggtc aaacttaat • 



1.9 • 
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<210> 31 
<211> 21 
<212> ADN 

<213> Homo sapiens 
<400> 31 

ggtttgaaag tatctccagg g 21 



<210> 32 
<211> 21 
<212> ADN 

<213> Homo sapiens 
<400> 32 

ggtttgaaag tatctccagg g 21 



<210> 33 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 33 

gtgcatgtgt tcgtatcaac 20 



<210> 34 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 34 

tcatctccaa aggagtttct 



<210> 35 
<211> 18 
<212> ADN 

<213> Homo sapiens 
<400> 35 

aaagccaacc ttgcttca 



<210> 36 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 36 

tcttggaaac aggtaagtgc 



<210> 37 
<211> 18 
<212> ADN 

<213> Homo sapiens 
<400> 37 
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18 



<210> 38 
<2Ii> 17 
<212> ADN 

<213> Homo sapiens 
<400> 38 

gtgctatgcc atcccag 17 



<210> 39 
<211> 20 
<212> ADN 

<213> Homo sapiens, 



<210> 40 
<211> 24 
<212> ADN 

<213> Homo sapiens 
<400> 40 

cacactttac acacacctat accc 24 

<210> 41 
<211> 22 
<212> ADN 

<213> Homo sapiens 



<210> 42 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 42 

gcttgggtta aatgcgtgt 19 

<210> 43 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<400> 39 

ccacaccagc gtttttctaa 



20 



<400> 41 

aagccatatt aggtctgtcc at 



22 



<400> 43 

agcagtttgg gtaaacattg 



20 



<210> 44 
<211> 20 
<212> ADN 



<213> Homo sapiens 



31 
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<400> 44 

aaatatgcct tctggaggtg 



20 



<210> 45 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 45 

ggaggatcag gggagtttat 20 

<210> 46 

<211> 24 

<212> ADN 

<213> Homo sapiens 



<210> 47 
<211> 23 
<212> ADN 

<213> Homo sapiens 
<400> 47 

ccaactctgt agtttcaaag age 23 

<210> 48 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 49 
<211> 25 
<212> ADN 

<213> Homo sapiens 
<400> 49 

gacagcctca aatgaaatat aacac 25 



<210> 50 
<211> 25 
<212> ADN 

<213> Homo sapiens 



<400> 46 

caaagtaaat gaatgtctac tgee 



24 



<400> 48 

tcacagccta cttgcttggt 



20 



<400> 50 

gctctcagct agggtagttg tttat 



25 



<210> 51 
<211> 25 
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<212> ADN 

<213> Homo sapiens 



<400> 51 

atttttaagg aatgtaaagn acaca 



25 



<210> 52 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 52 

gaccaggagt cagtaaaagg 20 

<210> 53 

<211> 20 

<212> ADN 

<213> Homo sapiens 



<210> 54 
<211> 24 
<212> ADN 

<213> Homo sapiens 
<400> 54 

gaagtagatc agtcatcttg ctgc 24 

<210> 55 
<211> 19 
<212> ADN 

<213> Homo sapiens 



<210> 56 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 56 

gggacatcac caagcacaag 20 

<210> 57 
<211> 25 
<212> ADN 

<213> Homo sapiens 



<400> 53 

gtccaaaaca ccaccctcta 



20 



<400> 55 

tcctctgggg gattcactc 



19 



<400> 57 

caggaaaata aatctaacac acata 



25 
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<210> 58 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 58 

cctgtgggca ctgataaata 
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20 



<210> 59 
<211> 19 
<212> ADN 

<213> Homo sapiens 



«100> 59 

cccagccccc atctcaccg 



19 



<210> 60 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 60 

cccagccccc atctcacca 



19 



<210> 61 

<211> 19 

<212> ADN 

<213> Homo sapiens 



<400> 61 

ctgcggagga ggctgctgg 



19 



<210> 62 
<211> 19 
<212> ADN 

<213> Homo sapiens 



<400> 62 

tcactcccac caccctttc 



19 



<210> 63 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 63 

agaagtttag tgtggcgtgg 



20 



<210> 64 
<211> 17 
<212> ADN 

<213> Homo sapiens 
<400> 64 

gccatctccc caagccc 



17 
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<210> 65 
<211> 18 
<212> ADN 

<213> Homo sapiens 
<400> 65 

tcgatgcgag ctgaagcg 18 

<210> 66 
<211> 18 
<212> ADN 

<213> Homo sapiens 



<210> 67 

<211> 20 

<212> ADN 

<213> Homo sapiens 

<400> 67 

tgaatgttaa agggctctgg 20 

<210> 68 
<211> 13 
<212> ADN 

<213> Homo sapiens 
<400> 68 

ttggttctca gctccggcg 19 

<210> 69 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 69 

ttggttctca gctccggca 19 

<210> 70 
<211> 19 
<212> ADN 

<213> Homo sapiens 



<400> 66 
tcgatgcgag 



ctgaagca 



18 



<400> 70 
agaaaccggg 



ctggctgtg 



19 



<210> 71 
<211> 21 
<212> ADN 



<213> Homo 



sapiens 
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<400> 71 

gcattgcctt ttgatctcta c 
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21 



<210> 72 
<211> 18 
<212> ADN 

<213> Homo sapiens 
<400> 72 

tgggctcttc tgcgggga 18 



<210> 73 
<211> 18 
<212> ADN 

<213> Homo sapiens 



<210> 74 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 74 

tgcctcttct tctgccttcc 20 

<210> 75 
<211> 22 
<212> ADN 

<213> Homo sapiens 



<210> 76 

<211> 24 

<212> ADN 

<213> Homo sapiens 

<400> 76 

cctgagctgt acctgaggaa gcgc 24 

<210> 77 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<400> 73 

tgggctcttc tgcggggg 



18 



<400> 75 

cgagctgtac ctgaggaagc gt 



22 



<400> 77 

catcatgagc ccggggtggc 



20 



<210> 78 
<211> 23 
<212> ADN 
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<400> 78 

tttctcttgg cttcctggtg cgt 



23 



<210> 79 
<211> 25 
<212> ADN 

<213> Homo sapiens 
<400> 79 

accttctctt ggcttcctgg tgcgg 25 

<210> 80 
<211> 26 
<212> ADN 

<213> Homo sapiens 



<210> 81 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 81 

atctgagaag gccctgctct 20 

<210> 82 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 83 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 83 

cccacactta gccttgatg 19 

<210> 84 
<211> 19 
<212> ADN 

<213> Homo sapiens 



<400> 80 

gccaaaggtg tcgtgccagg gctcca 



26 



<400> 82 



atctgagaag gccctgctcc 



20 



<400> 84 

atgagttagc ccagcggag 



19 



<210> 85 
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<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 85 

attgagagcc cttggagtg 19 



<210> 86 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 86 

tgatttcgta agacaagtg 19 



<210> 87 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 87 

agcaaattct aggagttatg 20 



<210> 88 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 88 

agctgagatg tccggatcg 19 

<210> 89 
<211> 18 
<212> ADN 

<213> Homo sapiens 
<400> 89 

agctgagatt ccggatca 18 



<210> 90 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 90 

gtcctcttaa cttcccttcc 20 



38 



